Как запустить gpt-oss: первые open-weight модели от OpenAI

Пошаговая инструкция по установке и запуску gpt-oss-20b и gpt-oss-120b через Ollama на вашем компьютере

2026-06-19·7 мин

Что это и для кого

5 августа 2025 года OpenAI совершил шаг, которого сообщество ждало годами: компания выпустила первые open-weight модели под лицензией Apache 2.0. Речь идёт о двух моделях -- gpt-oss-20b и gpt-oss-120b. Это не просто эксперимент: обе модели построены на архитектуре Mixture-of-Experts (MoE) и способны конкурировать с коммерческими решениями. По данным OpenAI, gpt-oss-20b показывает результаты, сопоставимые с o3-mini, а gpt-oss-120b приближается к уровню o4-mini на ключевых тестах по математике и программированию.

Что делает этот релиз исторически значимым? OpenAI долгое время придерживалась закрытой модели разработки, несмотря на своё название. Выпуск gpt-oss под Apache 2.0 -- принципиально новый курс компании. Это открывает возможности для коммерческого использования без отчислений, для файн-тюнинга под специфические задачи и для самостоятельного развёртывания в любой инфраструктуре. Обе модели оптимизированы для работы на потребительском железе: gpt-oss-20b помещается в 16 ГБ оперативной памяти или видеопамяти, а gpt-oss-120b благодаря формату квантизации MXFP4 занимает значительно меньше места, чем можно было бы ожидать от модели такого масштаба.

Кому это будет полезно? В первую очередь -- разработчикам и инженерам, которые хотят запускать мощный AI-ассистент локально, без передачи корпоративных данных в облако. Компаниям в чувствительных отраслях -- медицина, юриспруденция, финансы -- где требуется полный контроль над данными и использование внешних API недопустимо. Исследователям и студентам, изучающим внутренние механизмы GPT-подобных моделей и желающим экспериментировать с файн-тюнингом. Наконец -- просто энтузиастам, которые хотят запустить модель уровня коммерческого GPT прямо на своём ноутбуке, без подписок и без интернета.

Разница между двумя версиями принципиальная. gpt-oss-20b ориентирован на edge-устройства, быструю итерацию и умеренные аппаратные требования: 16 ГБ памяти достаточно для старта. gpt-oss-120b предназначен для производственных сценариев, высоконагруженных агентных пайплайнов и задач, где качество важнее скорости -- но требует GPU уровня NVIDIA A100 с 80 ГБ видеопамяти или аналогичной конфигурации. Для большинства личных и малых бизнес-проектов gpt-oss-20b является оптимальным выбором.

Как зарегистрироваться и установить

Самый простой способ запустить gpt-oss -- через Ollama. Это бесплатный инструмент с открытым исходным кодом, который автоматически скачивает и управляет моделями, обеспечивает квантизацию, поднимает локальный OpenAI-совместимый API и предоставляет удобный CLI. Никакой регистрации аккаунта не требуется: достаточно скачать и установить сам Ollama.

Шаг 1. Установите Ollama. Перейдите на сайт ollama.com и скачайте установщик под вашу операционную систему. Ollama поддерживает macOS (Apple Silicon и Intel), Linux (Ubuntu, Debian, Arch и другие дистрибутивы) и Windows через WSL2. После установки откройте терминал и проверьте версию:

ollama --version

Если команда вернула версию программы, всё установлено корректно. Актуальная версия Ollama на июнь 2026 -- v0.30.8 и новее. На macOS Ollama запускается как фоновый сервис автоматически после установки.

Шаг 2. Скачайте gpt-oss-20b. Для большинства пользователей рекомендуется начать именно с этой версии: она работает на ноутбуке или десктопе с 16 ГБ оперативной или видеопамяти. Выполните команду в терминале:

ollama pull gpt-oss:20b

Обновление: ollama pull gpt-oss (без указания версии) теперь доступна напрямую через каталог Ollama library и загружает рекомендуемую версию автоматически.

Загрузка займёт некоторое время -- модель весит около 12 ГБ в сжатом формате MXFP4. Ollama отображает прогресс-бар. После завершения загрузки модель сохраняется локально и готова к работе без повторного скачивания при следующих запусках.

Шаг 3. gpt-oss-120b (для мощного железа). Если у вас есть рабочая станция или сервер с NVIDIA A100 80 ГБ или несколькими GPU с суммарной видеопамятью от 80 ГБ:

ollama pull gpt-oss:120b

Модель весит около 60 ГБ. Без подходящего GPU лучше использовать облачный API (подробности в разделе о ценах).

Системные требования для gpt-oss-20b. Минимум: 16 ГБ RAM для CPU-инференсе (скорость около 5-10 токенов в секунду, достаточно для нечастого использования). Рекомендуется: видеокарта с 16 ГБ VRAM -- NVIDIA RTX 3090, RTX 4090, RTX 5090 -- или Apple M2 Pro / M3 Max / M4 Ultra. На Mac с чипом M-серии Ollama использует движок Apple MLX, что даёт отличную скорость генерации (30-50 токенов в секунду) при высокой энергоэффективности. Для комфортного использования: GPU с 16+ ГБ VRAM, скорость генерации 20-60 токенов в секунду.

Первый запуск -- что попробовать

После загрузки модели запустить интерактивный чат можно одной командой:

ollama run gpt-oss:20b

Ollama откроет консольный интерфейс прямо в терминале. Вы увидите приглашение >>> -- введите любой вопрос и нажмите Enter. Первый запрос займёт несколько секунд пока модель загружается в память, последующие ответы будут значительно быстрее.

Математика и пошаговые рассуждения. gpt-oss обучался на задачах олимпиадного уровня и показывает сильные результаты на тестах AIME, AMC и SWE-bench. Попробуйте: «Реши задачу пошагово: у Маши было 15 яблок, она отдала треть Пете, а потом купила ещё 8. Сколько яблок у неё теперь? Объясни каждый шаг.» Обратите внимание на полную цепочку рассуждений в ответе -- это отличает gpt-oss от моделей, которые просто выдают итог без объяснений.

Программирование. Попробуйте: «Напиши на Python функцию, которая принимает список чисел и возвращает второй по величине элемент. Добавь юнит-тесты с граничными случаями и обработку ошибок.» gpt-oss хорошо справляется с задачами такого рода, выявляет краевые случаи и объясняет решение. Попросите также провести код-ревью существующего кода -- модель найдёт потенциальные баги и предложит улучшения.

Анализ длинных текстов. Вставьте в промпт большой текст (статью, техническую документацию, главу книги) и попросите краткое изложение с ключевыми тезисами и действенными выводами. Контекстное окно в 128 000 токенов позволяет работать с материалами объёмом около 100 000 слов -- это целый роман или крупная кодовая база.

Локальный API для разработчиков. Ollama поднимает API-сервер на адресе http://localhost:11434/v1, полностью совместимый с форматом OpenAI API. Если у вас уже есть приложение под OpenAI API, достаточно изменить параметр base_url -- и оно начнёт использовать локальную модель без каких-либо других изменений в коде. Это особенно удобно для тестирования и прототипирования.

Для удобного графического интерфейса вместо консоли установите Open WebUI -- бесплатное веб-приложение, которое автоматически подключается к Ollama. На сайте open-webui.com есть инструкция по установке через Docker за пять минут. Open WebUI предоставляет полноценный чат с историей диалогов, возможностью загружать файлы (PDF, Word, изображения) и переключаться между всеми установленными моделями прямо в браузере.

Ключевые возможности

Архитектура Mixture-of-Experts (MoE). Несмотря на большое суммарное число параметров (21 млрд у gpt-oss-20b, 117 млрд у gpt-oss-120b), при обработке каждого токена активируется лишь небольшая часть параметров: 3.6 млрд и 5.1 млрд соответственно. За счёт этого MoE-модели работают быстрее и потребляют меньше памяти по сравнению с обычными «плотными» моделями аналогичного номинального масштаба. Это ключевое преимущество для локального запуска на ограниченном железе.

Регулируемый уровень рассуждений. В gpt-oss реализован механизм adjustable reasoning: параметр thinking_effort принимает значения low, medium или high. Для простых вопросов режим low даёт быстрый ответ и экономит ресурсы. Для сложных математических задач, написания кода или анализа документов режим high включает расширенную цепочку рассуждений с промежуточными шагами. Это позволяет гибко балансировать между скоростью и качеством.

Контекстное окно 128K токенов. Это около 100 000 слов -- достаточно для анализа целой книги, большой кодовой базы или нескольких часов транскрибированной беседы. При работе через Ollama контекстное окно доступно по умолчанию, без дополнительных настроек. Длинный контекст -- одно из главных преимуществ gpt-oss перед многими другими локальными моделями.

Нативный tool use и structured outputs. gpt-oss поддерживает вызов инструментов (веб-поиск, выполнение Python-кода, обращение к внешним функциям) при использовании через API. Модель самостоятельно решает, когда и какой инструмент вызвать, обрабатывает результат и продолжает рассуждение. Это делает её подходящей для агентных сценариев: автоматизации задач, обработки данных, многошаговых исследований.

Полная цепочка рассуждений (Chain-of-Thought). В отличие от ряда коммерческих моделей, скрывающих внутреннее «думание» от пользователя, gpt-oss возвращает полную CoT в ответе. Это ценно при отладке агентных пайплайнов, когда важно понять, почему модель пришла именно к такому выводу, и исправить ошибочное рассуждение.

Файн-тюнинг и кастомизация. Веса gpt-oss опубликованы на Hugging Face (openai/gpt-oss-20b, openai/gpt-oss-120b) под лицензией Apache 2.0. Лицензия разрешает коммерческое использование, модификацию и распространение без ограничений. Для дообучения под специфические задачи подходят фреймворки unsloth (эффективный LoRA-файн-тюнинг с минимальными требованиями к памяти) и Hugging Face Transformers. Это открывает возможности для создания специализированных корпоративных моделей -- например, обученных на внутренней документации.

Цены и ограничения

Локально: полностью бесплатно. Если вы запускаете gpt-oss через Ollama на собственном оборудовании, никаких платежей нет. Лицензия Apache 2.0 не требует отчислений даже для коммерческих проектов. Единственные расходы -- электричество и амортизация оборудования. При наличии подходящего GPU (например, RTX 4090 за 200-300 тысяч рублей) стоимость запуска модели стремится к нулю на длинных горизонтах.

Облачный API для тех, у кого нет мощного GPU. gpt-oss доступна через API Fireworks.ai, Together.ai, Groq и ряда других платформ. Стоимость на момент написания: от 0.20 до 0.60 доллара за миллион входящих токенов в зависимости от платформы и версии модели -- значительно дешевле, чем GPT-4o ($5-15/M) или Claude Sonnet через официальные API. Для регистрации и оплаты необходима зарубежная банковская карта.

Ограничения. При CPU-инференсе gpt-oss-20b работает медленно -- 5-15 токенов в секунду, что некомфортно для длинных ответов. Без GPU скорость остаётся узким местом. Стандартная установка через Ollama не включает доступ в интернет -- для web-инструментов нужна дополнительная конфигурация через API. gpt-oss-120b требует GPU-оборудования уровня NVIDIA A100, недоступного большинству домашних пользователей. Наконец, как все языковые модели, gpt-oss может ошибаться в фактах -- важные утверждения следует проверять из независимых источников.

Нужен ли VPN из России

При локальном запуске через Ollama VPN не требуется. Команда ollama pull gpt-oss:20b скачивает модель с серверов Ollama, доступных из России без ограничений на момент написания. Репозиторий на GitHub (github.com/openai/gpt-oss) и страницы на Hugging Face (huggingface.co/openai/gpt-oss-20b) также доступны без VPN.

Для работы через облачный API на Fireworks.ai или Together.ai ситуация иная: сами API-запросы обычно работают без VPN, однако для создания аккаунта и оплаты нужна зарубежная банковская карта (Visa или Mastercard иностранного банка). Отдельные платформы дополнительно проверяют IP-адрес при регистрации -- в этом случае VPN пригодится только для создания аккаунта, а не для повседневных запросов.

Официальный сайт OpenAI (openai.com) с документацией и модельными карточками gpt-oss доступен из России без VPN. Если вы сталкиваетесь с ограничениями доступа к конкретным ресурсам, достаточно использовать VPN только для первоначальной регистрации -- дальнейшая работа, как правило, продолжается без него.

gpt-oss-safeguard: сопутствующий инструмент безопасности

Вместе с gpt-oss OpenAI выпустила gpt-oss-safeguard -- отдельную модель классификации безопасности в двух вариантах: gpt-oss-safeguard-120b (более точная) и gpt-oss-safeguard-20b (быстрая). Лицензия Apache 2.0. Это специализированная модель, обученная выявлять небезопасный контент, попытки prompt injection, и потенциально вредоносные запросы. Она не является языковой моделью для чата -- это инструмент-фильтр для встраивания в production-пайплайны.

Типичный сценарий использования: запрос пользователя проходит через gpt-oss-safeguard (быстрая классификация) до того как попадает в gpt-oss-20b (основная обработка). Если safeguard помечает запрос как потенциально вредоносный -- основная модель не вызывается. Это снижает вычислительные затраты на обработку нежелательных запросов. Скачать через Hugging Face: huggingface-cli download openai/gpt-oss-safeguard-120b (120B, точнее) или huggingface-cli download openai/gpt-oss-safeguard-20b (20B, быстрее). Через Ollama: ollama pull gpt-oss-safeguard:120b или ollama pull gpt-oss-safeguard:20b. Документация и примеры интеграции: github.com/openai/gpt-oss.

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

Поделиться:Telegram X LinkedIn

Как вам материал?

Теги:OpenAI open source Ollama локальные модели gpt-oss LLM

Хотите получать подобные материалы раньше?

Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.

Узнать про Intelligence

Не пропускайте важное

Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.

Как начать пользоваться CodeRabbit: AI-ревью кода прямо в GitHub и GitLab

Гайд по CodeRabbit -- самому популярному AI-инструменту для автоматического ревью кода. 2 миллиона репозиториев, поддержка GitHub, GitLab, Azure DevOps и Bitbucket. Бесплатно для open-source проектов.

2026-06-21·7 мин

С чего начать·Гайд

Как начать пользоваться Cline: автономный AI-агент для кода прямо в VS Code

Полный гайд по Cline -- open-source AI-агенту для VS Code с 5 миллионами установок. Работает с любой моделью, редактирует файлы, выполняет команды в терминале, открывает браузер. Apache 2.0, bring-your-own-key.

2026-06-21·7 мин

С чего начать·Гайд

Как начать пользоваться Vidu: AI-генератор видео из текста и фото

Полный гайд по Vidu -- китайскому AI-сервису для создания видео. Бесплатный тариф, три режима генерации: из текста, из фото и по референсу. Никакой установки -- работает в браузере.

2026-06-21·7 мин