Как запустить Qwen 3.6 27B на своём компьютере: лучшая открытая модель для кода

Qwen 3.6 27B от Alibaba - лучшая open-source модель для программирования по состоянию на май 2026 года. Показывает 77.2% на SWE-bench, работает на MacBook с 64 ГБ RAM и полностью бесплатна. Объясняем как запустить.

2026-05-26·8 мин

Семейство Qwen 3.6: другие модели

Помимо Qwen 3.6 27B, Alibaba выпустила ещё несколько моделей серии: Qwen3.6-35B-A3B (sparse MoE) -- 35B параметров, только 3B активных на токен. Через Ollama: ollama pull qwen3.6:35b-a3b. Qwen3.6-Plus (облачный API) -- 1 миллион токенов контекста, оптимизирован для агентных задач.

Что это и для кого

Qwen 3.6 27B - это открытая языковая модель от Alibaba, выпущенная 21 апреля 2026 года под лицензией MIT. По состоянию на момент выхода это лучшая открытая модель для задач программирования: она набирает 77.2% на SWE-bench в агентном режиме (agentic setup) - одном из самых авторитетных бенчмарков для оценки кодовых возможностей. SWE-bench проверяет способность модели решать реальные задачи из GitHub Issues крупных открытых проектов вроде Django, Flask, NumPy и SciPy. Агент должен прочитать описание бага или задачи, разобраться в существующем коде, написать корректный патч и убедиться, что все тесты проходят. Это очень близко к реальной работе разработчика.

Важная деталь: при 27 миллиардах параметров Qwen 3.6 27B обходит GPT-5-mini на большинстве бенчмарков, связанных с кодом - и делает это локально, полностью бесплатно, без отправки данных в облако. Это редкий случай, когда открытая модель по реальным показателям превосходит коммерческие аналоги в своём классе.

Модель содержит 27 миллиардов параметров - это средний размер среди открытых моделей. Она значительно мощнее компактных моделей вроде Phi-4-mini или Qwen-8B, но при этом всё ещё поддаётся запуску на высококлассных потребительских MacBook благодаря унифицированной памяти архитектуры Apple Silicon. Контекстное окно достигает 262 144 токена - это примерно 100 000 слов или несколько тысяч строк кода одновременно.

Кому подойдёт эта модель: разработчикам, которые хотят AI-помощника для кода без ежемесячной подписки - модель бесплатна и работает локально; командам, работающим с конфиденциальными проектами и не желающим отправлять код в облако; владельцам MacBook M3 Ultra или M4 Ultra с 64 ГБ унифицированной памяти; энтузиастам с мощными GPU (RTX 4090 с 24 ГБ VRAM или аналогичные); всем, кто уже использует Ollama или LM Studio и хочет попробовать наиболее мощную открытую модель для кода.

Как зарегистрироваться / установить

Qwen 3.6 27B распространяется полностью бесплатно, никакой регистрации не требуется. Веса модели опубликованы на Hugging Face. Есть два основных способа установки: через Ollama (рекомендуется для большинства пользователей) и через LM Studio (если предпочитаете графический интерфейс).

Способ 1: Ollama (командная строка)

Если Ollama у вас ещё не установлен, перейдите на сайт ollama.com и скачайте установщик для вашей операционной системы. На macOS это стандартный .dmg-файл, на Windows - .exe, на Linux доступна установка через curl. После установки Ollama запускается как фоновый сервис и автоматически поднимает локальный API-сервер на порту 11434.

Проверьте, что Ollama установлен и работает:

ollama --version
ollama list

Скачайте модель Qwen 3.6 27B. Файл в квантизации Q4_K_M весит около 17-18 ГБ, поэтому загрузка займёт время в зависимости от скорости интернета:

ollama pull qwen3.6:27b

После загрузки запустите модель в интерактивном режиме:

ollama run qwen3.6:27b

Появится приглашение ввода. Напишите любой вопрос или задачу - и модель начнёт отвечать прямо в терминале. Для выхода введите /bye или нажмите Ctrl+D.

Если нужна квантизованная версия с меньшими требованиями к памяти, можно явно указать вариант при загрузке. Вариант Q4_K_M оптимален по соотношению качество/размер. Для совсем ограниченной памяти существуют Q3_K_M и Q2_K:

ollama pull qwen3.6:27b-q4_K_M
# или меньший вариант
ollama pull qwen3.6:27b-q3_K_M

Способ 2: LM Studio (графический интерфейс)

LM Studio - это приложение с полноценным графическим интерфейсом, которое удобнее для тех, кто не работает с командной строкой. Скачайте LM Studio с сайта lmstudio.ai - приложение доступно для macOS, Windows и Linux. Установите как обычное приложение для вашей операционной системы.

После запуска LM Studio перейдите на вкладку поиска моделей (иконка лупы или вкладка Discover). Введите в поиске 'Qwen 3.6'. В списке результатов найдите Qwen3.6-27B и выберите вариант с пометкой Q4_K_M - это оптимальный баланс между качеством и объёмом занимаемой памяти. Нажмите Download и дождитесь завершения загрузки. После этого перейдите на вкладку Chat, выберите загруженную модель в выпадающем списке вверху и начните диалог.

Требования к железу: Для полной версии в квантизации Q4_K_M необходимо примерно 22 ГБ видеопамяти VRAM (подойдёт RTX 4090 с 24 ГБ или аналог) или 64 ГБ унифицированной памяти на MacBook с чипом M3 Ultra или M4 Ultra. MacBook с 32 ГБ запустит модель, но часть весов будет выгружаться в оперативную память, что существенно снизит скорость генерации. Вариант Q3_K_M работает примерно с 40 ГБ RAM.

Первый запуск - что попробовать

После того как модель загружена и запущена, начните с нескольких типичных задач программирования, чтобы оценить возможности.

Задача 1: Ревью существующего кода. Вставьте фрагмент кода из вашего реального проекта и спросите (на английском для максимального качества): 'Review this code for bugs, security issues, performance problems, and style improvements. Be specific and provide fixed versions where applicable.' Qwen 3.6 27B даёт детальные, конкретные замечания с примерами исправления - это одна из её сильнейших сторон.

Задача 2: Написание функции по описанию. Опишите задачу: 'Write a Python function that takes a list of dicts, groups them by a specified key, and returns a new dict with keys being the group values and values being lists of matching items. Include type hints, docstring, and unit tests.' Модель напишет полноценный код с тестами.

Задача 3: Отладка по трейсбеку. Предоставьте код вместе с полным сообщением об ошибке. Qwen 3.6 27B в большинстве случаев точно определяет корневую причину и объясняет её понятно.

Задача 4: Использование через OpenAI-совместимый API. Ollama запускает локальный сервер на порту 11434, полностью совместимый с OpenAI API по формату запросов. Это означает, что любое приложение или библиотека, написанная для работы с OpenAI, может переключиться на локальный Qwen буквально за одну строку:

from openai import OpenAI

client = OpenAI(
    base_url='http://localhost:11434/v1',
    api_key='ollama'  # Ollama игнорирует значение ключа
)

response = client.chat.completions.create(
    model='qwen3.6:27b',
    messages=[
        {'role': 'system', 'content': 'You are an expert Python developer.'},
        {'role': 'user', 'content': 'Implement a binary search tree with insert, delete, and search operations'}
    ]
)
print(response.choices[0].message.content)

Используя API-совместимость, можно подключить Qwen 3.6 27B как бэкенд для Continue.dev - бесплатного плагина для VS Code и JetBrains, который даёт автодополнение кода и чат прямо в редакторе. Это бесплатная альтернатива GitHub Copilot с полной конфиденциальностью. В настройках Continue.dev просто укажите ollama как провайдер и qwen3.6:27b как модель.

Большое контекстное окно в 262K токенов (262 144) открывает интересную возможность: загрузить в контекст весь небольшой проект и задать вопросы об архитектуре, попросить предложить рефакторинг или найти все места, где нарушается какой-то паттерн. Это существенно отличает данную модель от инструментов с контекстом 4K-8K токенов.

Ключевые фишки

77.2% на SWE-bench (агентный режим) - лучший результат среди открытых моделей: SWE-bench считается одним из наиболее репрезентативных бенчмарков для кодовых задач, потому что не проверяет знание алгоритмов в вакууме, а требует реальной работы с большими кодовыми базами. 77.2% означает, что в 77 из 100 реальных задач из GitHub Issues модель написала корректный патч, прошедший автоматизированные тесты. Это на несколько процентных пунктов выше, чем у GPT-5-mini и большинства других коммерческих моделей сопоставимого размера.

Tool Calling (вызов инструментов и функций): Модель полностью поддерживает структурированный вызов функций - агентный паттерн, при котором модель не просто генерирует код, а вызывает реальные функции вашего приложения и использует результаты для следующих шагов. Совместима с форматом function calling от OpenAI, что упрощает интеграцию в существующие агентные системы.

Контекстное окно 262K токенов (262 144): Большинство компактных локальных моделей работают с окном 4K-8K токенов. 262K - это огромный шаг вперёд, позволяющий загружать в контекст крупные файлы, длинные переписки, документацию или несколько связанных файлов проекта одновременно. При анализе незнакомого кода это принципиально важно.

MIT лицензия - полная свобода использования: В отличие от некоторых открытых моделей с ограничительными лицензиями (например, запрет на коммерческое использование или требование публиковать производные модели), MIT лицензия позволяет абсолютно всё: использовать в коммерческих продуктах, встраивать в проприетарное ПО, использовать как основу для дообучения, распространять модифицированные версии. Никаких отчислений, никаких ограничений.

Квантизованные версии для разного железа: Официально поддерживаемые версии Q4_K_M, Q3_K_M и Q2_K позволяют запустить модель на железе с разным объёмом памяти. Разница в качестве между Q4_K_M и Q2_K заметна, но для большинства повседневных задач программирования даже Q3_K_M даёт отличные результаты при значительно меньших требованиях к RAM.

Широкий языковой охват: Qwen 3.6 27B обучена на данных на 201 языке, в том числе на русском. Для задач, связанных с кодом, лучше писать промпты на английском - это даёт максимальное качество, поскольку большинство обучающих данных по программированию на английском. Для пояснений и документации русский язык работает вполне хорошо.

Цены и ограничения

Модель абсолютно бесплатна. Веса опубликованы на Hugging Face под лицензией MIT. Скачивание через Ollama или LM Studio ничего не стоит. Стоимость запуска - только ваше железо и электроэнергия. Никаких скрытых платежей, подписок, лимитов на количество запросов или токенов нет.

На MacBook M4 Ultra скорость генерации составляет примерно 20-30 токенов в секунду в квантизации Q4_K_M - это вполне комфортный темп для диалогового использования. На системах с меньшим количеством RAM или при запуске с частичной выгрузкой в оперативную память скорость будет ниже, иногда значительно.

Главное ограничение - требования к железу: Для комфортной работы с полной версией Q4_K_M нужно 64 ГБ унифицированной памяти (MacBook M3 Ultra или M4 Ultra) или VRAM от 22 ГБ (RTX 4090 с 24 ГБ, RTX 6000 Ada с 48 ГБ). Если у вас MacBook с 16 или 32 ГБ памяти, рекомендуем рассмотреть модели меньшего размера: Qwen 3.6 8B (требует около 6-8 ГБ RAM) или Phi-4-mini. Они слабее по бенчмаркам, но зато запустятся без проблем и будут работать быстро.

Ограничения по качеству: Несмотря на отличный результат на SWE-bench, модель не является универсально лучшей. На задачах широкого рассуждения, сложного планирования или глубокого анализа предметной области крупные облачные модели могут показывать лучшее качество. Для production-систем, где ошибки критичны, стоит сравнивать результаты Qwen 3.6 27B с облачными альтернативами на ваших конкретных задачах.

Скачивание модели требует хорошего интернет-соединения и примерно 18 ГБ дискового пространства. После скачивания модель работает полностью офлайн.

Нужен ли VPN из России

VPN для запуска Qwen 3.6 27B не нужен. Это одно из ключевых преимуществ локальных моделей перед облачными: вся работа происходит на вашем компьютере, никаких запросов в интернет при генерации текста не делается.

При первоначальном скачивании модели через команду ollama pull файлы загружаются с серверов Ollama и, при необходимости, с Hugging Face. На момент написания оба ресурса доступны из России без VPN - загрузка проходит без ограничений. Скачивание через LM Studio также работает без необходимости в VPN.

После того как модель загружена на ваш компьютер, интернет-соединение для работы с ней не нужно вообще. Можно полностью отключиться от сети - модель продолжит работать. Генерация происходит на вашем процессоре и видеокарте, данные никуда не отправляются.

Это делает Qwen 3.6 27B особенно ценной для корпоративного использования в России: можно работать с конфиденциальным кодом, коммерческой тайной, персональными данными клиентов - ничего из этого не покидает пределы вашего устройства или офисной сети. Никакого соответствия требованиям GDPR или 152-ФЗ по части AI-провайдеров не нужно - вы сами являетесь своим провайдером.

Если вы захотите использовать Qwen через облачный API сторонних сервисов вроде Together.ai, Fireworks.ai или других провайдеров, поддерживающих открытые модели, ситуация с VPN зависит от конкретного провайдера и может отличаться. Но для локального запуска через Ollama или LM Studio VPN не требуется ни при скачивании, ни при использовании.

Архитектура: гибридный Gated DeltaNet

Qwen 3.6 27B использует гибридную архитектуру Gated DeltaNet + Gated Attention -- это не стандартная трансформерная модель и не классическая MoE (Mixture of Experts). Gated DeltaNet позволяет модели эффективнее работать с длинными контекстами и снижает требования к памяти при обработке 262K токенов.

Мультимодальность: текст + изображения + видео

В отличие от большинства открытых моделей, Qwen 3.6 27B нативно мультимодальна -- принимает на вход:

Текст: стандартный текстовый диалог
Изображения: анализ скриншотов, документов, диаграмм, фотографий
Видео: понимание видеоматериалов (кадры из видео)

Для работы с мультимодальным вводом через Ollama убедитесь, что используете модель qwen3.6:27b (не текстовую версию).

Интеграция с OpenClaw

Qwen 3.6 27B можно использовать как модель агента в OpenClaw -- открытой AI-агентной платформе. Преимущество: полная локальная работа без отправки данных в облако.

Настройка в OpenClaw: укажите в конфигурации агента provider: ollama и model: qwen3.6:27b. Для агентных задач рекомендуется включить режим мышления (thinking: on).

Режим мышления (thinking mode)

Как и другие модели Qwen3, версия 27B поддерживает два режима:

Без мышления (стандартный): быстрый ответ, подходит для простых задач
С мышлением (thinking on): модель рассуждает перед ответом, точнее для сложных задач программирования и анализа

В Ollama: добавьте /think в начале запроса для включения режима мышления, или укажите параметр в system prompt.

Qwen 3.7: новое поколение и стратегический сдвиг Alibaba (июнь 2026)

1 июня 2026 Alibaba выпустила Qwen3.7-Plus в General Availability (Qwen 3.7 Max доступен через API с 20 мая 2026) -- флагман нового поколения серии Qwen с принципиальным отличием от предыдущих версий.

Характеристики Qwen3.7-Plus:

Мультимодальность -- нативная поддержка vision (изображения) и video понимания
Контекст 1M токенов -- один из самых больших контекстных окон среди коммерческих моделей
Deep Reasoning -- улучшенный режим пошагового рассуждения
Tool Invocation -- автоматический вызов инструментов
Autonomous Iteration -- агентная итеративная работа с задачами
Стоимость API: на момент написания входящие токены -- $0.40/1M, исходящие -- $1.60/1M (уточняйте актуальные цены на платформе Bailian)

ВАЖНО: стратегический сдвиг Alibaba. Начиная с Qwen 3.7, Alibaba перешла на проприетарную лицензию без публикации весов. Это принципиальное изменение: Qwen 3.6 и более ранние версии были open-source под Apache 2.0, но Qwen 3.7+ -- закрытые модели, доступные только через API.

Что это означает для вас: Qwen 3.6 27B остаётся лучшим open-weight вариантом от Alibaba для локального запуска. Если вам нужна локальная работа без API -- Qwen 3.6 27B ваш выбор. Если вам нужны последние мультимодальные возможности (нативная поддержка vision, видео, 1M контекст) -- Qwen 3.7 Plus через облачный API (platform.alibaba.com/bailian).

Итог по выбору: Qwen 3.6 27B -- оптимальный вариант для локального запуска с открытыми весами (MIT лицензия, офлайн, конфиденциально). Qwen 3.7 Plus -- выбор для облачного API, если нужны мультимодальные возможности (изображения, видео, 1M токенов контекста), но без локального запуска.

Thinking Preservation: многоходовые задачи (2026): Механизм Thinking Preservation сохраняет цепочку рассуждений между ходами диалога. В многоагентных задачах это исключает повторную генерацию уже вычисленного контекста: модель продолжает с той же точки. Повышает эффективность использования KV-кэша при длинных агентных сессиях.

Примечание об установке Qwen 3.7: Аналогичный процесс локальной установки (через Ollama, LM Studio или llama.cpp) будет применим к Qwen 3.7 в случае публикации открытых весов. На момент написания (июнь 2026) открытые веса Qwen 3.7 не опубликованы -- Qwen 3.6 27B остаётся основным вариантом для локального запуска. Следите за обновлениями на huggingface.co/Qwen.

MTP стал стабильным

Multi-Token Prediction (MTP) в Qwen 3 6/27B переведён в статус стабильного. Функция больше не является экспериментальной - она включена по умолчанию в актуальных сборках llama.cpp и Ollama. MTP ускоряет генерацию токенов на 15-25% без потери качества за счёт параллельного предсказания следующих токенов.

Если вы запускаете модель через llama.cpp напрямую, убедитесь, что используете версию не ниже b3800. В более ранних версиях MTP мог давать нестабильные результаты. Ollama автоматически использует актуальные параметры при запуске через `ollama run qwen3:27b`.

ВАЖНО: настройка num_ctx при запуске через Ollama

Критически важная настройка: при запуске Qwen 3.6 27B через Ollama по умолчанию устанавливается контекстное окно в 2048 токенов. Это ничтожно мало для большинства реальных задач - длинный код, документы, многоходовые диалоги будут обрезаться незаметно для пользователя, что ухудшает качество ответов.

Рекомендуется явно устанавливать num_ctx не менее 32768:

# Через параметр при запуске:
ollama run qwen3.6:27b --num-ctx 32768

# Или через Modelfile:
FROM qwen3.6:27b
PARAMETER num_ctx 32768

Для большинства задач рекомендуется 32768 токенов. Если ваша задача требует ещё больше контекста (большие кодовые базы, длинные документы) - устанавливайте до 128K, если позволяет RAM. Каждые дополнительные 8K токенов требуют около 1 ГБ дополнительной RAM при работе на CPU.

Производительность с MTP: на профессиональных GPU класса NVIDIA RTX 6000 Ada (48 ГБ VRAM) Qwen 3.6 27B с включенным Multi-Token Prediction достигает скорости около 160 токенов в секунду. На RTX 4090 (24 ГБ VRAM) при Q4_K_M квантизации - около 50-70 токенов в секунду.

Обновление: Qwen 3.7 (май 2026)

В мае 2026 года Alibaba анонсировала Qwen 3.7 -- следующее поколение после линейки Qwen 3.6. Ключевое отличие: контекстное окно расширено до 1 млн токенов (против 256K у Qwen 3.6). Мультимодальное зрение (vision) доступно в Qwen3.7-Plus. Также вышли обновлённые инструктивные варианты Qwen3-2507 для задач рассуждения (thinking).

Следующее поколение: семейство Qwen 3.7

20 мая 2026 года на конференции Apsara Summit компания Alibaba анонсировала Qwen3.7-Max – флагманскую мультимодальную модель следующего поколения. 1 июня 2026 года вышел Qwen3.7-Plus – более лёгкая версия той же серии, оптимизированная для агентных задач. Обе модели поддерживают контекстное окно в 1 миллион токенов и принимают на вход текст, изображения и аудио.

Важное отличие от Qwen 3.6: модели серии Qwen 3.7 доступны исключительно через API Alibaba Cloud (qwen.aliyun.com) и не имеют открытых весов. Локальный запуск невозможен – архитектура и веса закрыты. Если ваша задача требует полного контроля над моделью или работы без интернета, Qwen 3.6 27B остаётся лучшим выбором: открытая лицензия MIT, веса на Hugging Face, запуск через Ollama без каких-либо изменений.

Таким образом, семейства Qwen 3.6 и Qwen 3.7 решают принципиально разные задачи. Qwen 3.7 – это облачный инструмент с расширенной мультимодальностью для тех, кто готов работать через API. Qwen 3.6 27B – открытая модель для локального запуска, которая по-прежнему занимает лидирующие позиции среди доступных open-weight вариантов для кода и остаётся актуальным выбором на середину 2026 года.

NVFP4-квантизация Qwen 3.6 27B для NVIDIA GPU (июль 2026)

10 июля 2026 года вышли NVFP4-квантизированные версии Qwen 3.6 27B. NVFP4 (NVIDIA Float Point 4-bit) - новый стандарт квантизации для карт NVIDIA серий RTX 40xx и RTX 50xx (Ada Lovelace, Blackwell). Преимущества NVFP4 по сравнению с Q4_K_M: модель 27B запускается с 12-14 ГБ VRAM вместо 18-20 ГБ, скорость генерации выше на 20-30%. Установка: ollama pull qwen3.6:27b-nvfp4. Для 7B варианта: ollama pull qwen3.6:7b-nvfp4 (требует 5 ГБ VRAM). Важно: NVFP4 работает только на NVIDIA GPU с архитектурой Ada Lovelace и новее. Для AMD GPU, Apple Silicon и CPU используйте стандартные Q4_K_M версии.

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

Поделиться:Telegram X LinkedIn

Как вам материал?

Теги:Qwen Alibaba локальные модели Ollama LM Studio SWE-bench open-source AI для кода

Хотите получать подобные материалы раньше?

Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.

Узнать про Intelligence

Не пропускайте важное

Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.

Как начать пользоваться Agno: Python-фреймворк для создания AI-агентов

Agno (бывший phidata) - один из самых популярных Python-фреймворков для построения AI-агентов с 39k+ звезд на GitHub. Пошаговый гайд: установка, первый агент за 5 минут, мультиагентные команды и деплой в продакшн.

2026-07-14·8 мин

С чего начать·Гайд

Seedance 2.5: как начать пользоваться генератором видео от ByteDance

Seedance 2.5 от ByteDance генерирует нативное 30-секундное видео в один проход, принимает до 50 мультимодальных референсов и позволяет редактировать отдельные фрагменты без перегенерации всего клипа.

2026-07-13·7 мин

С чего начать·Гайд

ChatGPT Work: как начать пользоваться агентным рабочим столом OpenAI

9 июля 2026 OpenAI запустила ChatGPT Work -- агента, который берёт у вас целый проект, сам планирует шаги, работает часами в фоне и возвращает готовый документ, таблицу или презентацию.

2026-07-13·8 мин