Как запустить gpt-oss: первые open-weight модели от OpenAI
Пошаговая инструкция по установке и запуску gpt-oss-20b и gpt-oss-120b через Ollama на вашем компьютере
Что это и для кого
5 августа 2025 года OpenAI совершил шаг, которого сообщество ждало годами: компания выпустила первые open-weight модели под лицензией Apache 2.0. Речь идёт о двух моделях -- gpt-oss-20b и gpt-oss-120b. Это не просто эксперимент: обе модели построены на архитектуре Mixture-of-Experts (MoE) и способны конкурировать с коммерческими решениями. По данным OpenAI, gpt-oss-20b показывает результаты, сопоставимые с o3-mini, а gpt-oss-120b приближается к уровню o4-mini на ключевых тестах по математике и программированию.
Что делает этот релиз исторически значимым? OpenAI долгое время придерживалась закрытой модели разработки, несмотря на своё название. Выпуск gpt-oss под Apache 2.0 -- принципиально новый курс компании. Это открывает возможности для коммерческого использования без отчислений, для файн-тюнинга под специфические задачи и для самостоятельного развёртывания в любой инфраструктуре. Обе модели оптимизированы для работы на потребительском железе: gpt-oss-20b помещается в 16 ГБ оперативной памяти или видеопамяти, а gpt-oss-120b благодаря формату квантизации MXFP4 занимает значительно меньше места, чем можно было бы ожидать от модели такого масштаба.
Кому это будет полезно? В первую очередь -- разработчикам и инженерам, которые хотят запускать мощный AI-ассистент локально, без передачи корпоративных данных в облако. Компаниям в чувствительных отраслях -- медицина, юриспруденция, финансы -- где требуется полный контроль над данными и использование внешних API недопустимо. Исследователям и студентам, изучающим внутренние механизмы GPT-подобных моделей и желающим экспериментировать с файн-тюнингом. Наконец -- просто энтузиастам, которые хотят запустить модель уровня коммерческого GPT прямо на своём ноутбуке, без подписок и без интернета.
Разница между двумя версиями принципиальная. gpt-oss-20b ориентирован на edge-устройства, быструю итерацию и умеренные аппаратные требования: 16 ГБ памяти достаточно для старта. gpt-oss-120b предназначен для производственных сценариев, высоконагруженных агентных пайплайнов и задач, где качество важнее скорости -- но требует GPU уровня NVIDIA A100 с 80 ГБ видеопамяти или аналогичной конфигурации. Для большинства личных и малых бизнес-проектов gpt-oss-20b является оптимальным выбором.
Как зарегистрироваться и установить
Самый простой способ запустить gpt-oss -- через Ollama. Это бесплатный инструмент с открытым исходным кодом, который автоматически скачивает и управляет моделями, обеспечивает квантизацию, поднимает локальный OpenAI-совместимый API и предоставляет удобный CLI. Никакой регистрации аккаунта не требуется: достаточно скачать и установить сам Ollama.
Шаг 1. Установите Ollama. Перейдите на сайт ollama.com и скачайте установщик под вашу операционную систему. Ollama поддерживает macOS (Apple Silicon и Intel), Linux (Ubuntu, Debian, Arch и другие дистрибутивы) и Windows через WSL2. После установки откройте терминал и проверьте версию:
ollama --versionЕсли команда вернула версию программы, всё установлено корректно. Актуальная версия Ollama на июнь 2026 -- v0.30.8 и новее. На macOS Ollama запускается как фоновый сервис автоматически после установки.
Шаг 2. Скачайте gpt-oss-20b. Для большинства пользователей рекомендуется начать именно с этой версии: она работает на ноутбуке или десктопе с 16 ГБ оперативной или видеопамяти. Выполните команду в терминале:
ollama pull gpt-oss:20bОбновление: ollama pull gpt-oss (без указания версии) теперь доступна напрямую через каталог Ollama library и загружает рекомендуемую версию автоматически.
Загрузка займёт некоторое время -- модель весит около 12 ГБ в сжатом формате MXFP4. Ollama отображает прогресс-бар. После завершения загрузки модель сохраняется локально и готова к работе без повторного скачивания при следующих запусках.
Шаг 3. gpt-oss-120b (для мощного железа). Если у вас есть рабочая станция или сервер с NVIDIA A100 80 ГБ или несколькими GPU с суммарной видеопамятью от 80 ГБ:
ollama pull gpt-oss:120bМодель весит около 60 ГБ. Без подходящего GPU лучше использовать облачный API (подробности в разделе о ценах).
Системные требования для gpt-oss-20b. Минимум: 16 ГБ RAM для CPU-инференсе (скорость около 5-10 токенов в секунду, достаточно для нечастого использования). Рекомендуется: видеокарта с 16 ГБ VRAM -- NVIDIA RTX 3090, RTX 4090, RTX 5090 -- или Apple M2 Pro / M3 Max / M4 Ultra. На Mac с чипом M-серии Ollama использует движок Apple MLX, что даёт отличную скорость генерации (30-50 токенов в секунду) при высокой энергоэффективности. Для комфортного использования: GPU с 16+ ГБ VRAM, скорость генерации 20-60 токенов в секунду.
Первый запуск -- что попробовать
После загрузки модели запустить интерактивный чат можно одной командой:
ollama run gpt-oss:20bOllama откроет консольный интерфейс прямо в терминале. Вы увидите приглашение >>> -- введите любой вопрос и нажмите Enter. Первый запрос займёт несколько секунд пока модель загружается в память, последующие ответы будут значительно быстрее.
Математика и пошаговые рассуждения. gpt-oss обучался на задачах олимпиадного уровня и показывает сильные результаты на тестах AIME, AMC и SWE-bench. Попробуйте: «Реши задачу пошагово: у Маши было 15 яблок, она отдала треть Пете, а потом купила ещё 8. Сколько яблок у неё теперь? Объясни каждый шаг.» Обратите внимание на полную цепочку рассуждений в ответе -- это отличает gpt-oss от моделей, которые просто выдают итог без объяснений.
Программирование. Попробуйте: «Напиши на Python функцию, которая принимает список чисел и возвращает второй по величине элемент. Добавь юнит-тесты с граничными случаями и обработку ошибок.» gpt-oss хорошо справляется с задачами такого рода, выявляет краевые случаи и объясняет решение. Попросите также провести код-ревью существующего кода -- модель найдёт потенциальные баги и предложит улучшения.
Анализ длинных текстов. Вставьте в промпт большой текст (статью, техническую документацию, главу книги) и попросите краткое изложение с ключевыми тезисами и действенными выводами. Контекстное окно в 128 000 токенов позволяет работать с материалами объёмом около 100 000 слов -- это целый роман или крупная кодовая база.
Локальный API для разработчиков. Ollama поднимает API-сервер на адресе http://localhost:11434/v1, полностью совместимый с форматом OpenAI API. Если у вас уже есть приложение под OpenAI API, достаточно изменить параметр base_url -- и оно начнёт использовать локальную модель без каких-либо других изменений в коде. Это особенно удобно для тестирования и прототипирования.
Для удобного графического интерфейса вместо консоли установите Open WebUI -- бесплатное веб-приложение, которое автоматически подключается к Ollama. На сайте open-webui.com есть инструкция по установке через Docker за пять минут. Open WebUI предоставляет полноценный чат с историей диалогов, возможностью загружать файлы (PDF, Word, изображения) и переключаться между всеми установленными моделями прямо в браузере.
Ключевые возможности
Архитектура Mixture-of-Experts (MoE). Несмотря на большое суммарное число параметров (21 млрд у gpt-oss-20b, 117 млрд у gpt-oss-120b), при обработке каждого токена активируется лишь небольшая часть параметров: 3.6 млрд и 5.1 млрд соответственно. За счёт этого MoE-модели работают быстрее и потребляют меньше памяти по сравнению с обычными «плотными» моделями аналогичного номинального масштаба. Это ключевое преимущество для локального запуска на ограниченном железе.
Регулируемый уровень рассуждений. В gpt-oss реализован механизм adjustable reasoning: параметр thinking_effort принимает значения low, medium или high. Для простых вопросов режим low даёт быстрый ответ и экономит ресурсы. Для сложных математических задач, написания кода или анализа документов режим high включает расширенную цепочку рассуждений с промежуточными шагами. Это позволяет гибко балансировать между скоростью и качеством.
Контекстное окно 128K токенов. Это около 100 000 слов -- достаточно для анализа целой книги, большой кодовой базы или нескольких часов транскрибированной беседы. При работе через Ollama контекстное окно доступно по умолчанию, без дополнительных настроек. Длинный контекст -- одно из главных преимуществ gpt-oss перед многими другими локальными моделями.
Нативный tool use и structured outputs. gpt-oss поддерживает вызов инструментов (веб-поиск, выполнение Python-кода, обращение к внешним функциям) при использовании через API. Модель самостоятельно решает, когда и какой инструмент вызвать, обрабатывает результат и продолжает рассуждение. Это делает её подходящей для агентных сценариев: автоматизации задач, обработки данных, многошаговых исследований.
Полная цепочка рассуждений (Chain-of-Thought). В отличие от ряда коммерческих моделей, скрывающих внутреннее «думание» от пользователя, gpt-oss возвращает полную CoT в ответе. Это ценно при отладке агентных пайплайнов, когда важно понять, почему модель пришла именно к такому выводу, и исправить ошибочное рассуждение.
Файн-тюнинг и кастомизация. Веса gpt-oss опубликованы на Hugging Face (openai/gpt-oss-20b, openai/gpt-oss-120b) под лицензией Apache 2.0. Лицензия разрешает коммерческое использование, модификацию и распространение без ограничений. Для дообучения под специфические задачи подходят фреймворки unsloth (эффективный LoRA-файн-тюнинг с минимальными требованиями к памяти) и Hugging Face Transformers. Это открывает возможности для создания специализированных корпоративных моделей -- например, обученных на внутренней документации.
Цены и ограничения
Локально: полностью бесплатно. Если вы запускаете gpt-oss через Ollama на собственном оборудовании, никаких платежей нет. Лицензия Apache 2.0 не требует отчислений даже для коммерческих проектов. Единственные расходы -- электричество и амортизация оборудования. При наличии подходящего GPU (например, RTX 4090 за 200-300 тысяч рублей) стоимость запуска модели стремится к нулю на длинных горизонтах.
Облачный API для тех, у кого нет мощного GPU. gpt-oss доступна через API Fireworks.ai, Together.ai, Groq и ряда других платформ. Стоимость на момент написания: от 0.20 до 0.60 доллара за миллион входящих токенов в зависимости от платформы и версии модели -- значительно дешевле, чем GPT-4o ($5-15/M) или Claude Sonnet через официальные API. Для регистрации и оплаты необходима зарубежная банковская карта.
Ограничения. При CPU-инференсе gpt-oss-20b работает медленно -- 5-15 токенов в секунду, что некомфортно для длинных ответов. Без GPU скорость остаётся узким местом. Стандартная установка через Ollama не включает доступ в интернет -- для web-инструментов нужна дополнительная конфигурация через API. gpt-oss-120b требует GPU-оборудования уровня NVIDIA A100, недоступного большинству домашних пользователей. Наконец, как все языковые модели, gpt-oss может ошибаться в фактах -- важные утверждения следует проверять из независимых источников.
Нужен ли VPN из России
При локальном запуске через Ollama VPN не требуется. Команда ollama pull gpt-oss:20b скачивает модель с серверов Ollama, доступных из России без ограничений на момент написания. Репозиторий на GitHub (github.com/openai/gpt-oss) и страницы на Hugging Face (huggingface.co/openai/gpt-oss-20b) также доступны без VPN.
Для работы через облачный API на Fireworks.ai или Together.ai ситуация иная: сами API-запросы обычно работают без VPN, однако для создания аккаунта и оплаты нужна зарубежная банковская карта (Visa или Mastercard иностранного банка). Отдельные платформы дополнительно проверяют IP-адрес при регистрации -- в этом случае VPN пригодится только для создания аккаунта, а не для повседневных запросов.
Официальный сайт OpenAI (openai.com) с документацией и модельными карточками gpt-oss доступен из России без VPN. Если вы сталкиваетесь с ограничениями доступа к конкретным ресурсам, достаточно использовать VPN только для первоначальной регистрации -- дальнейшая работа, как правило, продолжается без него.
gpt-oss-safeguard: сопутствующий инструмент безопасности
Вместе с gpt-oss OpenAI выпустила gpt-oss-safeguard -- отдельную модель классификации безопасности в двух вариантах: gpt-oss-safeguard-120b (более точная) и gpt-oss-safeguard-20b (быстрая). Лицензия Apache 2.0. Это специализированная модель, обученная выявлять небезопасный контент, попытки prompt injection, и потенциально вредоносные запросы. Она не является языковой моделью для чата -- это инструмент-фильтр для встраивания в production-пайплайны.
Типичный сценарий использования: запрос пользователя проходит через gpt-oss-safeguard (быстрая классификация) до того как попадает в gpt-oss-20b (основная обработка). Если safeguard помечает запрос как потенциально вредоносный -- основная модель не вызывается. Это снижает вычислительные затраты на обработку нежелательных запросов. Скачать через Hugging Face: huggingface-cli download openai/gpt-oss-safeguard-120b (120B, точнее) или huggingface-cli download openai/gpt-oss-safeguard-20b (20B, быстрее). Через Ollama: ollama pull gpt-oss-safeguard:120b или ollama pull gpt-oss-safeguard:20b. Документация и примеры интеграции: github.com/openai/gpt-oss.
Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceНе пропускайте важное
Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.
Как начать пользоваться CodeRabbit: AI-ревью кода прямо в GitHub и GitLab
Гайд по CodeRabbit -- самому популярному AI-инструменту для автоматического ревью кода. 2 миллиона репозиториев, поддержка GitHub, GitLab, Azure DevOps и Bitbucket. Бесплатно для open-source проектов.
Как начать пользоваться Cline: автономный AI-агент для кода прямо в VS Code
Полный гайд по Cline -- open-source AI-агенту для VS Code с 5 миллионами установок. Работает с любой моделью, редактирует файлы, выполняет команды в терминале, открывает браузер. Apache 2.0, bring-your-own-key.
Как начать пользоваться Vidu: AI-генератор видео из текста и фото
Полный гайд по Vidu -- китайскому AI-сервису для создания видео. Бесплатный тариф, три режима генерации: из текста, из фото и по референсу. Никакой установки -- работает в браузере.