Как запустить ZAYA1-8B от Zyphra на своём компьютере
ZAYA1-8B -- эффективная open-source языковая модель от Zyphra с архитектурой MoE и лицензией Apache 2.0. Всего 760M активных параметров при 8.4B общих, превосходит Phi-4 и SmolLM3 на задачах рассуждения. Бесплатно, запускается на обычном компьютере.
ZAYA1-8B-Diffusion-Preview -- диффузионная версия (14 мая 2026)
14 мая 2026 года Zyphra выпустила ZAYA1-8B-Diffusion-Preview -- диффузионную версию с ускорением до 7.7x. На Hugging Face: Zyphra/ZAYA1-8B-Diffusion-Preview. Для большинства пользователей рекомендуется базовый ZAYA1-8B через Ollama.
Что это и для кого
ZAYA1-8B -- это open-source языковая модель от компании Zyphra, выпущенная в мае 2026 года под лицензией Apache 2.0. Модель использует архитектуру Mixture-of-Experts (MoE) -- это означает, что из 8.4 миллиарда общих параметров при каждом запросе активируется только около 760 миллионов. Результат: производительность, близкая к значительно более крупным моделям, при значительно меньших требованиях к вычислительным ресурсам.
Что делает ZAYA1-8B особенной среди малых open-source моделей: на математических бенчмарках модель при использовании дополнительных вычислений на момент вывода (test-time compute) приближается к результатам таких моделей как Claude 4.5 Sonnet и Gemini 2.5 Pro -- то есть к коммерческим флагманам, которые запускать локально невозможно. На стандартных бенчмарках рассуждения ZAYA1-8B превосходит Phi-4 от Microsoft и SmolLM3 от Hugging Face -- двух главных конкурентов в категории маленьких эффективных моделей.
Интересная техническая деталь: ZAYA1 -- это первая модель, обученная полностью на аппаратном обеспечении AMD (видеокарты AMD Instinct MI300X с сетевой инфраструктурой AMD Pensando Pollara). Это совместный проект Zyphra, AMD и IBM, направленный на создание альтернативы доминирующим NVIDIA-кластерам в обучении LLM.
Кому подойдёт ZAYA1-8B: разработчикам, которые хотят локально запускать умную языковую модель без облачных зависимостей. Пользователям с умеренными ресурсами -- модель работает на компьютерах с 8-16 ГБ оперативной памяти. Исследователям, которым нужна Apache 2.0-лицензия для коммерческих проектов без ограничений. Тем, кто хочет попробовать передовую архитектуру MoE в компактном формате перед использованием более крупных моделей.
Для каких задач хорошо подходит ZAYA1-8B: математические рассуждения и задачи, программирование на популярных языках (Python, JavaScript, SQL), анализ и объяснение кода, логические задачи и головоломки. Для задач, требующих широкой фактической базы знаний или работы с очень длинными контекстами -- лучше рассмотреть более крупные модели.
Как зарегистрироваться / установить
ZAYA1-8B работает локально -- никакой регистрации не требуется. Есть два основных способа запуска: через Ollama (рекомендуется для большинства пользователей) и через Hugging Face (для разработчиков, которые работают с Python-экосистемой).
Способ 1: Запуск через Ollama (рекомендуется)
Шаг 1. Установите Ollama. Ollama -- это инструмент для запуска open-source LLM-моделей локально. Перейдите на ollama.com, скачайте установщик для вашей операционной системы (macOS, Windows, Linux) и установите. На macOS это .dmg-файл, на Windows -- .exe, на Linux -- однострочный скрипт установки через curl.
Шаг 2. Откройте терминал. На macOS -- Terminal или iTerm2. На Windows -- PowerShell или Windows Terminal. На Linux -- любой терминальный эмулятор.
Шаг 3. Скачайте и запустите ZAYA1-8B. Введите команду:
ollama run zaya1:8b
Ollama автоматически скачает модель (размер файла около 5 ГБ) и запустит интерактивный чат. Скачивание занимает несколько минут при стандартном интернет-соединении. После загрузки сразу появляется строка ввода для диалога с моделью.
Шаг 4. Начните диалог. Введите любой вопрос или задачу на русском или английском языке. ZAYA1-8B отвечает на обоих языках. Для выхода из интерактивного режима введите /bye или нажмите Ctrl+C.
Способ 2: Через Zyphra Cloud (без установки)
Если не хотите устанавливать ничего локально -- ZAYA1-8B доступна бесплатно через serverless endpoint на облаке Zyphra. Перейдите на zyphra.com, найдите раздел с ZAYA1-8B и используйте веб-интерфейс или API-ключ для запросов. Это удобно для тестирования модели перед локальной установкой.
Способ 3: Через Hugging Face (для разработчиков)
Установите transformers и необходимые библиотеки:
pip install transformers torch accelerate
Загрузите модель:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained('Zyphra/ZAYA1-8B')
tokenizer = AutoTokenizer.from_pretrained('Zyphra/ZAYA1-8B')
Этот способ подходит для разработчиков, которые хотят встроить ZAYA1-8B в собственный пайплайн или приложение.
Первый запуск -- что попробовать
После запуска через Ollama у вас есть интерактивный чат с ZAYA1-8B. Вот что стоит попробовать первым делом, чтобы оценить возможности модели.
Математическая задача. Это сильная сторона ZAYA1-8B. Попробуйте задачу с несколькими шагами: «Поезд выехал из Москвы в 8:00 со скоростью 120 км/ч. Через 2 часа из Санкт-Петербурга навстречу выехал второй поезд со скоростью 150 км/ч. Расстояние между городами 714 км. В какое время поезда встретятся?» ZAYA1-8B должна пошагово разобрать задачу и дать верный ответ.
Анализ кода. Вставьте небольшой фрагмент кода с ошибкой и попросите найти и исправить проблему. ZAYA1-8B обучалась на большом объёме кода и хорошо справляется с Python, JavaScript и SQL.
Логическая задача. Попробуйте задачу на рассуждение: «Если все кошки -- животные, и Мурка -- кошка, то является ли Мурка животным? Объясни свои рассуждения.» Для более сложных логических задач включите режим расширенного рассуждения (extended thinking), если он доступен в вашей версии модели.
Сравнение с другими моделями. Если у вас уже установлены другие модели через Ollama (например, llama4-scout или qwen3), попробуйте один и тот же запрос на нескольких моделях и сравните качество ответов. На задачах рассуждения ZAYA1-8B обычно показывает результат выше своего размерного класса.
API-запросы из кода. Ollama запускает локальный сервер на порту 11434. Из Python-кода можно отправлять запросы к ZAYA1-8B так же, как к облачным моделям:
import urllib.request, json
data = json.dumps({'model': 'zaya1:8b', 'prompt': 'Расскажи о квантовых вычислениях'}).encode()
req = urllib.request.Request('http://localhost:11434/api/generate', data=data)
resp = urllib.request.urlopen(req)
print(json.loads(resp.read())['response'])
Ключевые фишки
Архитектура Mixture-of-Experts (MoE) -- эффективность без потери качества. MoE -- это архитектурный паттерн, при котором модель не использует все параметры при каждом запросе. Вместо этого специализированные «эксперты» активируются только для нужного типа задачи. ZAYA1-8B имеет 8.4B параметров, но использует лишь 760M при каждом вычислении. Это означает: скорость работы 8B-модели при качестве, приближающемся к значительно большим плотным моделям.
Apache 2.0 -- самая свободная лицензия. В отличие от многих конкурентов, которые выпускают модели под ограничительными лицензиями (Community License у Llama, которая запрещает использование в крупных компаниях), ZAYA1-8B выходит под Apache 2.0. Это означает полную свободу: коммерческое использование, интеграция в продукты, модификация, дистрибуция -- без ограничений и без необходимости указывать авторство в пользовательском интерфейсе.
Производительность математических рассуждений. На бенчмарке MATH-500 и аналогичных тестах математических рассуждений ZAYA1-8B при расширенных вычислениях на момент вывода приближается к результатам моделей класса Claude 4.5 Sonnet. Это исключительный результат для модели размером 8B, который делает её лучшим выбором для задач, требующих точных вычислений и логических цепочек.
Превосходит прямых конкурентов. На стандартных бенчмарках рассуждения и кодирования ZAYA1-8B показывает результаты выше Phi-4 от Microsoft (который обычно считался лучшей моделью в 4-8B классе) и SmolLM3 от Hugging Face. Это ставит её на верхнюю строчку в категории маленьких, эффективных, полностью открытых моделей.
Первая модель на AMD-кластере. ZAYA1-8B обучена на кластере из AMD Instinct MI300X GPU совместно с IBM -- первый публичный случай создания конкурентоспособной открытой LLM без использования NVIDIA оборудования. Это важный прецедент для диверсификации вычислительной экосистемы AI.
Интеграция с Ollama и Open WebUI. ZAYA1-8B доступна в официальной библиотеке Ollama, что означает автоматическую совместимость со всеми инструментами экосистемы: Open WebUI для браузерного интерфейса, Continue.dev для интеграции в VS Code, Obsidian AI-плагины и другие. Одна команда ollama pull zaya1:8b -- и модель работает со всеми этими инструментами.
Бесплатный облачный endpoint от Zyphra. Для тех, у кого нет мощного компьютера, Zyphra предоставляет ZAYA1-8B как бесплатный serverless endpoint в своём облаке. Это позволяет тестировать модель без локальной установки через API или веб-интерфейс на zyphra.com.
Цены и ограничения
ZAYA1-8B -- полностью бесплатная модель во всех смыслах слова. Лицензия Apache 2.0 разрешает любое использование без оплаты, включая коммерческое.
Локальный запуск через Ollama: бесплатно. Единственная «цена» -- это требования к оборудованию. Для комфортной работы с ZAYA1-8B в 4-битном квантовании нужно минимум 6-8 ГБ оперативной памяти (ОЗУ или видеопамяти). Для полной точности (FP16) нужно около 16 ГБ. На современных MacBook с Apple Silicon (M2/M3/M4 с 16 ГБ памяти) модель работает без проблем.
Облачный endpoint Zyphra: бесплатно для базового использования. Zyphra предлагает serverless endpoint без необходимости регистрации для тестирования. Для высоких нагрузок возможны ограничения по количеству запросов -- проверяйте актуальные условия на zyphra.com.
Hugging Face Inference API: также доступна через Hugging Face inference API -- часть запросов бесплатно, за превышение лимитов взимается плата по стандартным тарифам Hugging Face.
Технические ограничения модели: контекстное окно ZAYA1-8B составляет 128К токенов, что достаточно для большинства задач. При использовании расширенного рассуждения (extended thinking) скорость ответа снижается -- модель «думает» дольше, но выдаёт более точные результаты. На задачах, требующих широкой фактической базы знаний (например, актуальных событий), 8B-модель уступает более крупным системам с обновлёнными данными.
Скорость генерации: на Mac M3 с 16 ГБ памяти ZAYA1-8B через Ollama генерирует около 30-50 токенов в секунду, что обеспечивает комфортный интерактивный диалог. На Windows-компьютере с NVIDIA GPU скорость будет выше; на машине без видеокарты (только CPU) -- значительно ниже, около 3-8 токенов в секунду.
Нужен ли VPN из России
При локальном запуске через Ollama -- нет, VPN не нужен. Модель скачивается из библиотеки Ollama (ollama.com/library) и запускается полностью на вашем компьютере без подключения к внешним серверам во время работы. Данные не покидают ваш компьютер -- это ключевое преимущество локальных моделей с точки зрения приватности.
Скачивание модели через Ollama: ollama.com должен быть доступен из России. Если сайт не открывается, включите VPN только для скачивания файла. После того как модель загружена на компьютер, VPN больше не нужен никогда -- модель работает полностью офлайн.
Скачивание с Hugging Face: huggingface.co доступен из России без VPN. Веса модели ZAYA1-8B доступны по адресу huggingface.co/Zyphra/ZAYA1-8B. Загрузка также занимает несколько минут в зависимости от скорости соединения.
Облачный endpoint Zyphra: zyphra.com доступен без VPN. Для использования API Zyphra Cloud понадобится только регистрация на сайте (бесплатно), VPN при этом не требуется.
Полная приватность при локальном использовании. Одно из главных преимуществ локальных моделей вроде ZAYA1-8B -- ваши запросы и данные никуда не отправляются. Можно загружать конфиденциальные документы, писать личные заметки, анализировать внутреннюю документацию компании без риска передачи данных третьим сторонам. Для российских пользователей, которые беспокоятся о конфиденциальности данных при использовании облачных AI-сервисов, это особенно актуально.
Установите Ollama, запустите ollama run zaya1:8b -- и через несколько минут у вас будет полноценная языковая модель, работающая полностью локально, без интернета и без какой-либо регистрации.
Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceНе пропускайте важное
Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.
Как начать пользоваться Claude Agent SDK: фреймворк для создания AI-агентов
Claude Agent SDK - библиотека Anthropic для создания автономных AI-агентов на Python и TypeScript. Отличается от Claude Code тем, что предназначен для разработчиков, встраивающих агентную логику в собственные приложения.
Как начать пользоваться LongCat-2.0: открытый LLM от Meituan
LongCat-2.0 - крупнейшая открытая языковая модель с 1.6 триллиона параметров от Meituan. Выпущена под лицензией MIT 30 июня 2026 года, обучена на китайских чипах и незаметно возглавляла рейтинг OpenRouter под именем Owl Alpha.
North Mini Code 1.0: как запустить локальную модель для программирования
North Mini Code 1.0 от Cohere -- компактная модель для генерации кода, которая работает прямо на вашем компьютере через Ollama. Подходит для Python, JavaScript, Go и других языков.