Как запустить Qwen 3.6 27B на своём компьютере: лучшая открытая модель для кода

Qwen 3.6 27B от Alibaba - лучшая open-source модель для программирования по состоянию на май 2026 года. Показывает 77.2% на SWE-bench, работает на MacBook с 64 ГБ RAM и полностью бесплатна. Объясняем как запустить.

·8 мин

Что это и для кого

Qwen 3.6 27B - это открытая языковая модель от Alibaba, выпущенная в мае 2026 года под лицензией MIT. По состоянию на момент выхода это лучшая открытая модель для задач программирования: она набирает 77.2% на SWE-bench - одном из самых авторитетных бенчмарков для оценки кодовых возможностей. SWE-bench проверяет способность модели решать реальные задачи из GitHub Issues крупных открытых проектов вроде Django, Flask, NumPy и SciPy. Агент должен прочитать описание бага или задачи, разобраться в существующем коде, написать корректный патч и убедиться, что все тесты проходят. Это очень близко к реальной работе разработчика.

Важная деталь: при 27 миллиардах параметров Qwen 3.6 27B обходит GPT-5-mini на большинстве бенчмарков, связанных с кодом - и делает это локально, полностью бесплатно, без отправки данных в облако. Это редкий случай, когда открытая модель по реальным показателям превосходит коммерческие аналоги в своём классе.

Модель содержит 27 миллиардов параметров - это средний размер среди открытых моделей. Она значительно мощнее компактных моделей вроде Phi-4-mini или Qwen-8B, но при этом всё ещё поддаётся запуску на высококлассных потребительских MacBook благодаря унифицированной памяти архитектуры Apple Silicon. Контекстное окно достигает 128 000 токенов - это примерно 100 000 слов или несколько тысяч строк кода одновременно.

Кому подойдёт эта модель: разработчикам, которые хотят AI-помощника для кода без ежемесячной подписки - модель бесплатна и работает локально; командам, работающим с конфиденциальными проектами и не желающим отправлять код в облако; владельцам MacBook M3 Ultra или M4 Ultra с 64 ГБ унифицированной памяти; энтузиастам с мощными GPU (RTX 4090 с 24 ГБ VRAM или аналогичные); всем, кто уже использует Ollama или LM Studio и хочет попробовать наиболее мощную открытую модель для кода.

Как зарегистрироваться / установить

Qwen 3.6 27B распространяется полностью бесплатно, никакой регистрации не требуется. Веса модели опубликованы на Hugging Face. Есть два основных способа установки: через Ollama (рекомендуется для большинства пользователей) и через LM Studio (если предпочитаете графический интерфейс).

Способ 1: Ollama (командная строка)

Если Ollama у вас ещё не установлен, перейдите на сайт ollama.com и скачайте установщик для вашей операционной системы. На macOS это стандартный .dmg-файл, на Windows - .exe, на Linux доступна установка через curl. После установки Ollama запускается как фоновый сервис и автоматически поднимает локальный API-сервер на порту 11434.

Проверьте, что Ollama установлен и работает:

ollama --version
ollama list

Скачайте модель Qwen 3.6 27B. Файл в квантизации Q4_K_M весит около 17-18 ГБ, поэтому загрузка займёт время в зависимости от скорости интернета:

ollama pull qwen3.6:27b

После загрузки запустите модель в интерактивном режиме:

ollama run qwen3.6:27b

Появится приглашение ввода. Напишите любой вопрос или задачу - и модель начнёт отвечать прямо в терминале. Для выхода введите /bye или нажмите Ctrl+D.

Если нужна квантизованная версия с меньшими требованиями к памяти, можно явно указать вариант при загрузке. Вариант Q4_K_M оптимален по соотношению качество/размер. Для совсем ограниченной памяти существуют Q3_K_M и Q2_K:

ollama pull qwen3.6:27b-q4_K_M
# или меньший вариант
ollama pull qwen3.6:27b-q3_K_M

Способ 2: LM Studio (графический интерфейс)

LM Studio - это приложение с полноценным графическим интерфейсом, которое удобнее для тех, кто не работает с командной строкой. Скачайте LM Studio с сайта lmstudio.ai - приложение доступно для macOS, Windows и Linux. Установите как обычное приложение для вашей операционной системы.

После запуска LM Studio перейдите на вкладку поиска моделей (иконка лупы или вкладка Discover). Введите в поиске 'Qwen 3.6'. В списке результатов найдите Qwen3.6-27B и выберите вариант с пометкой Q4_K_M - это оптимальный баланс между качеством и объёмом занимаемой памяти. Нажмите Download и дождитесь завершения загрузки. После этого перейдите на вкладку Chat, выберите загруженную модель в выпадающем списке вверху и начните диалог.

Требования к железу: Для полной версии в квантизации Q4_K_M необходимо примерно 22 ГБ видеопамяти VRAM (подойдёт RTX 4090 с 24 ГБ или аналог) или 64 ГБ унифицированной памяти на MacBook с чипом M3 Ultra или M4 Ultra. MacBook с 32 ГБ запустит модель, но часть весов будет выгружаться в оперативную память, что существенно снизит скорость генерации. Вариант Q3_K_M работает примерно с 40 ГБ RAM.

Первый запуск - что попробовать

После того как модель загружена и запущена, начните с нескольких типичных задач программирования, чтобы оценить возможности.

Задача 1: Ревью существующего кода. Вставьте фрагмент кода из вашего реального проекта и спросите (на английском для максимального качества): 'Review this code for bugs, security issues, performance problems, and style improvements. Be specific and provide fixed versions where applicable.' Qwen 3.6 27B даёт детальные, конкретные замечания с примерами исправления - это одна из её сильнейших сторон.

Задача 2: Написание функции по описанию. Опишите задачу: 'Write a Python function that takes a list of dicts, groups them by a specified key, and returns a new dict with keys being the group values and values being lists of matching items. Include type hints, docstring, and unit tests.' Модель напишет полноценный код с тестами.

Задача 3: Отладка по трейсбеку. Предоставьте код вместе с полным сообщением об ошибке. Qwen 3.6 27B в большинстве случаев точно определяет корневую причину и объясняет её понятно.

Задача 4: Использование через OpenAI-совместимый API. Ollama запускает локальный сервер на порту 11434, полностью совместимый с OpenAI API по формату запросов. Это означает, что любое приложение или библиотека, написанная для работы с OpenAI, может переключиться на локальный Qwen буквально за одну строку:

from openai import OpenAI

client = OpenAI(
    base_url='http://localhost:11434/v1',
    api_key='ollama'  # Ollama игнорирует значение ключа
)

response = client.chat.completions.create(
    model='qwen3.6:27b',
    messages=[
        {'role': 'system', 'content': 'You are an expert Python developer.'},
        {'role': 'user', 'content': 'Implement a binary search tree with insert, delete, and search operations'}
    ]
)
print(response.choices[0].message.content)

Используя API-совместимость, можно подключить Qwen 3.6 27B как бэкенд для Continue.dev - бесплатного плагина для VS Code и JetBrains, который даёт автодополнение кода и чат прямо в редакторе. Это бесплатная альтернатива GitHub Copilot с полной конфиденциальностью. В настройках Continue.dev просто укажите ollama как провайдер и qwen3.6:27b как модель.

Большое контекстное окно в 128K токенов открывает интересную возможность: загрузить в контекст весь небольшой проект и задать вопросы об архитектуре, попросить предложить рефакторинг или найти все места, где нарушается какой-то паттерн. Это существенно отличает данную модель от инструментов с контекстом 4K-8K токенов.

Ключевые фишки

77.2% на SWE-bench - лучший результат среди открытых моделей: SWE-bench считается одним из наиболее репрезентативных бенчмарков для кодовых задач, потому что не проверяет знание алгоритмов в вакууме, а требует реальной работы с большими кодовыми базами. 77.2% означает, что в 77 из 100 реальных задач из GitHub Issues модель написала корректный патч, прошедший автоматизированные тесты. Это на несколько процентных пунктов выше, чем у GPT-5-mini и большинства других коммерческих моделей сопоставимого размера.

Tool Calling (вызов инструментов и функций): Модель полностью поддерживает структурированный вызов функций - агентный паттерн, при котором модель не просто генерирует код, а вызывает реальные функции вашего приложения и использует результаты для следующих шагов. Совместима с форматом function calling от OpenAI, что упрощает интеграцию в существующие агентные системы.

Контекстное окно 128K токенов: Большинство компактных локальных моделей работают с окном 4K-8K токенов. 128K - это огромный шаг вперёд, позволяющий загружать в контекст крупные файлы, длинные переписки, документацию или несколько связанных файлов проекта одновременно. При анализе незнакомого кода это принципиально важно.

MIT лицензия - полная свобода использования: В отличие от некоторых открытых моделей с ограничительными лицензиями (например, запрет на коммерческое использование или требование публиковать производные модели), MIT лицензия позволяет абсолютно всё: использовать в коммерческих продуктах, встраивать в проприетарное ПО, использовать как основу для дообучения, распространять модифицированные версии. Никаких отчислений, никаких ограничений.

Квантизованные версии для разного железа: Официально поддерживаемые версии Q4_K_M, Q3_K_M и Q2_K позволяют запустить модель на железе с разным объёмом памяти. Разница в качестве между Q4_K_M и Q2_K заметна, но для большинства повседневных задач программирования даже Q3_K_M даёт отличные результаты при значительно меньших требованиях к RAM.

Широкий языковой охват: Qwen 3.6 27B обучена на данных на 29 языках, в том числе на русском. Для задач, связанных с кодом, лучше писать промпты на английском - это даёт максимальное качество, поскольку большинство обучающих данных по программированию на английском. Для пояснений и документации русский язык работает вполне хорошо.

Цены и ограничения

Модель абсолютно бесплатна. Веса опубликованы на Hugging Face под лицензией MIT. Скачивание через Ollama или LM Studio ничего не стоит. Стоимость запуска - только ваше железо и электроэнергия. Никаких скрытых платежей, подписок, лимитов на количество запросов или токенов нет.

На MacBook M4 Ultra скорость генерации составляет примерно 20-30 токенов в секунду в квантизации Q4_K_M - это вполне комфортный темп для диалогового использования. На системах с меньшим количеством RAM или при запуске с частичной выгрузкой в оперативную память скорость будет ниже, иногда значительно.

Главное ограничение - требования к железу: Для комфортной работы с полной версией Q4_K_M нужно 64 ГБ унифицированной памяти (MacBook M3 Ultra или M4 Ultra) или VRAM от 22 ГБ (RTX 4090 с 24 ГБ, RTX 6000 Ada с 48 ГБ). Если у вас MacBook с 16 или 32 ГБ памяти, рекомендуем рассмотреть модели меньшего размера: Qwen 3.6 8B (требует около 6-8 ГБ RAM) или Phi-4-mini. Они слабее по бенчмаркам, но зато запустятся без проблем и будут работать быстро.

Ограничения по качеству: Несмотря на отличный результат на SWE-bench, модель не является универсально лучшей. На задачах широкого рассуждения, сложного планирования или глубокого анализа предметной области крупные облачные модели могут показывать лучшее качество. Для production-систем, где ошибки критичны, стоит сравнивать результаты Qwen 3.6 27B с облачными альтернативами на ваших конкретных задачах.

Скачивание модели требует хорошего интернет-соединения и примерно 18 ГБ дискового пространства. После скачивания модель работает полностью офлайн.

Нужен ли VPN из России

VPN для запуска Qwen 3.6 27B не нужен. Это одно из ключевых преимуществ локальных моделей перед облачными: вся работа происходит на вашем компьютере, никаких запросов в интернет при генерации текста не делается.

При первоначальном скачивании модели через команду ollama pull файлы загружаются с серверов Ollama и, при необходимости, с Hugging Face. На момент написания оба ресурса доступны из России без VPN - загрузка проходит без ограничений. Скачивание через LM Studio также работает без необходимости в VPN.

После того как модель загружена на ваш компьютер, интернет-соединение для работы с ней не нужно вообще. Можно полностью отключиться от сети - модель продолжит работать. Генерация происходит на вашем процессоре и видеокарте, данные никуда не отправляются.

Это делает Qwen 3.6 27B особенно ценной для корпоративного использования в России: можно работать с конфиденциальным кодом, коммерческой тайной, персональными данными клиентов - ничего из этого не покидает пределы вашего устройства или офисной сети. Никакого соответствия требованиям GDPR или 152-ФЗ по части AI-провайдеров не нужно - вы сами являетесь своим провайдером.

Если вы захотите использовать Qwen через облачный API сторонних сервисов вроде Together.ai, Fireworks.ai или других провайдеров, поддерживающих открытые модели, ситуация с VPN зависит от конкретного провайдера и может отличаться. Но для локального запуска через Ollama или LM Studio VPN не требуется ни при скачивании, ни при использовании.

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

Поделиться:TelegramXLinkedIn
Как вам материал?

Хотите получать подобные материалы раньше?

Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.

Узнать про Intelligence

Не пропускайте важное

Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.

Похожие материалы

Как начать пользоваться Microsoft Agent Framework: разработка AI-агентов на Python и .NET

Microsoft Agent Framework 1.0 объединил AutoGen и Semantic Kernel в единый open-source инструмент для создания автономных AI-агентов. Разбираемся с установкой, первым агентом и мультиагентными сценариями.

·8 мин

Как начать пользоваться Grok Build: агент для программирования от xAI

Grok Build -- терминальный AI-агент от xAI для разработчиков. Запускает параллельных агентов, пишет код, редактирует файлы и деплоит проекты прямо из командной строки.

·7 мин

Как начать пользоваться Recraft V4: AI-генератор изображений с дизайнерским вкусом

Recraft V4 -- единственный AI-генератор изображений с нативным SVG-выводом и профессиональным дизайнерским подходом. Отлично работает с текстом, брендовыми элементами и векторной графикой.

·7 мин