Как установить Ollama: запуск AI-моделей на своём компьютере
Ollama — самый простой способ запустить AI-модели локально. Llama, Mistral, Qwen, DeepSeek — всё работает на вашем компьютере, без интернета, бесплатно и приватно.
Обновления Ollama (2026)
Ollama v0.30.10 (17-18 июня 2026) -- актуальная версия. MLX engine для Apple Silicon (начиная с v0.30.x) обеспечивает значительное ускорение для пользователей Mac. Ранее: v0.24.0 (14 мая 2026, историческое обновление): Gemma 4 support с MTP speculative decoding (Multi-Token Prediction) - скорость генерации увеличена в 2x+ без изменения качества. API caching улучшен в 6.7x - повторные запросы к одной модели значительно быстрее. Новые команды: ollama ps для просмотра запущенных моделей, ollama pull --insecure для локальных registry.
Актуальные модели в Ollama (июнь 2026): ollama pull llama4:17b (Llama 4 Scout), ollama pull qwen3.6-coder (Qwen3.6-Coder), ollama pull gemma4:4b (Gemma 4 для слабого железа), ollama pull phi4-mini (Microsoft Phi-4 Mini), ollama pull mistral3:7b. Полный каталог на ollama.com/library. ollama pull gemma4:12b (Gemma 4 12B, 3 июня 2026), ollama pull nemotron-3-nano (Nemotron 3 Nano 8B от NVIDIA), ollama pull deepseek-v4-pro (DeepSeek V4 Pro). Qwen 3.6 27B - лучший 27B вариант по соотношению качество/размер в 2026 году: ollama pull qwen3.6:27b. Llama 4 Scout - мультимодальный с контекстом 10M токенов: ollama pull llama4:scout.
Ollama REST API обновления: endpoint /api/generate поддерживает параметр cache_key для явного кэширования, /api/embeddings принимает батч запросы. OpenAI совместимый endpoint /v1/chat/completions поддерживает все параметры OpenAI API. Middleware режим через OLLAMA_PROXY=true для проксирования в облако при превышении локальных ресурсов.
Системные требования для актуальных моделей (середина 2026): 7B модели - 8 ГБ RAM/VRAM, 14B - 16 ГБ, 27B - 32 ГБ, 70B - 48 ГБ или CPU с 64 ГБ RAM в медленном режиме. Apple Silicon (M3/M4) использует унифицированную память: M3 Pro 18GB - комфортно для 14B, M4 Max 128GB - для 70B+.
Что такое Ollama
Ollama - бесплатная программа, которая позволяет запускать AI-модели с открытым кодом прямо на вашем компьютере. Без облака, без подписок, без отправки данных куда-либо. Всё работает локально - ваши данные остаются у вас. Через Ollama можно запустить тысячи моделей: Llama 4 Scout и Maverick (Meta, апрель 2026 -- Scout с контекстом 10 млн токенов), Gemma 4 31B (Google, апрель 2026, Apache 2.0), Kimi K2.7-Code (Moonshot AI, 12 июня 2026, 1T MoE, лидер в кодинге, +21.8% на Code Bench v2), Qwen, DeepSeek, Mistral, Phi (Microsoft) и другие. Это как иметь собственный ChatGPT на компьютере - бесплатно и приватно.Требования
• Mac: Apple Silicon (M1/M2/M3/M4) - 8+ ГБ RAM. На Intel Mac работает, но медленно. • Windows: 8+ ГБ RAM. С NVIDIA GPU - значительно быстрее. • Linux: 8+ ГБ RAM. • Чем больше RAM, тем более мощные модели можно запускать (16-32 ГБ - оптимально для серьёзной работы).Доступ из России
Ollama работает локально. VPN не нужен.Как установить на Mac
Шаг 1. Откройте ollama.com и скачайте версию для Mac. Шаг 2. Откройте скачанный файл и перетащите Ollama в Applications. Шаг 3. Запустите Ollama - иконка появится в строке меню. Шаг 4. Откройте Terminal и запустите первую модель:ollama run llama4 Шаг 5. Модель скачается и запустится. Вы в чате - задавайте вопросы.Как установить на Windows
Шаг 1. Скачайте установщик с ollama.com. Шаг 2. Запустите установщик. Шаг 3. Откройте PowerShell или Command Prompt. Шаг 4. Запустите:ollama run llama4Популярные модели в 2026
• llama4 (Llama 4 Scout 17B) - флагман Meta, лучший общий выбор при 12+ ГБ VRAM. • kimi-k2.7-code (Kimi K2.7-Code) - лидер в кодинге среди не-Western моделей (Modified MIT, 1T MoE, 256K контекст, +21.8% на Kimi Code Bench v2). • qwen3 - мощная модель Alibaba, особенно сильна в коде (варианты от 4 до 30 ГБ). • deepseek-r2 - модель с глубокой логикой и reasoning. • gemma3 - лёгкая и быстрая модель Google. • mistral - компактная модель для чата. • phi4 - маленькая модель Microsoft с сильной логикой. • nemotron3-ultra (Nemotron 3 Ultra 550B) -- гибридная архитектура Mamba-Attention (MoE), 550 млрд параметров, выпущена 4 июня 2026:ollama pull nemotron3-ultra:550b • nemotron-3-nano (Nemotron 3 Nano 8B) -- мультимодальная модель NVIDIA с поддержкой текста и изображений, оптимизирована для локального запуска.Новое в 2026 (май--июнь)
Графический интерфейс
Ollama работает через терминал, но можно добавить визуальный интерфейс: • Open WebUI - веб-интерфейс в стиле ChatGPT (устанавливается через Docker). • Enchanted - нативное приложение для Mac (App Store). • Jan - десктопное приложение с GUI (Mac, Windows, Linux), умеет подключаться к Ollama как к бэкенду.5 советов
1. Начните с маленькой модели. Например, gemma3 4B или qwen3 8B - быстро скачаются и работают на 8 ГБ RAM. 2. Используйте для приватных данных. Финансовые документы, медицинские данные, личные тексты - всё остаётся на вашем компьютере. 3. Подключайтесь по API. Ollama поднимает OpenAI-совместимый сервер на localhost:11434 - удобно для своих скриптов. 4. Скачивайте модели заранее.ollama pull llama4 - модель готова к запуску в любой момент. 5. Следите за VRAM. Если модель не помещается в видеопамять - Ollama переключится на CPU и работа замедлится.Qwen3.6-27B и масштаб Ollama (май 2026)
Qwen3.6-27B теперь доступна в Ollama (лицензия Apache 2.0). Модель опережает значительно более крупные MoE-модели на задачах агентного кодинга -- при весе 27 ГБ она является одним из лучших соотношений качества и размера в 2026 году. Запуск: ollama run qwen3.6:27b.
По данным на май 2026, Ollama достигла 52 миллионов ежемесячных загрузок -- это крупнейшая open-source платформа для запуска локальных AI-моделей. Библиотека насчитывает более 4 500 моделей.
Structured Outputs (JSON schema) - новая возможность Ollama для получения ответов в строго заданном формате. Достаточно передать JSON-схему в API-запросе, и Ollama гарантирует, что ответ модели будет соответствовать ей. Это критически важно для приложений, которые парсят ответы модели программно.
Web Search API позволяет моделям в Ollama делать запросы в интернет прямо во время вывода. Модель самостоятельно решает, когда нужна актуальная информация, формирует поисковый запрос и включает результаты в ответ. Функция работает через настраиваемые поисковые плагины.
MLX-оптимизация для Apple Silicon значительно ускорила работу на Mac с чипами M-серии. Ollama теперь автоматически выбирает MLX-бэкенд при запуске на Apple Silicon, что даёт прирост скорости в 2-3 раза по сравнению с Universal-версией. Никаких дополнительных настроек не требуется.
MLX engine для Apple Silicon (Ollama v0.30.x, июнь 2026): Начиная с версий v0.30.x Ollama получил значительно улучшенный MLX engine для Apple Silicon. Прирост скорости генерации на чипах M-серии составляет 20-40% по сравнению с предыдущими версиями. Поддержка модели Cohere2Moe добавлена в v0.30.x. Новая функция: ollama pull cohere2moe. Для пользователей Mac -- это особенно значимое обновление: MLX backend теперь используется автоматически без дополнительных настроек, а скорость на M4 Max для 7B моделей достигает 100-130 токенов/сек.
Claude Desktop + Ollama: Интеграция с Claude Desktop поддерживается в текущих версиях Ollama. Для подключения: в Claude Desktop откройте Настройки -- найдите раздел 'Integrations' или 'Local AI Provider' -- укажите Ollama endpoint (http://localhost:11434). После этого Claude Desktop сможет использовать локальные модели через Ollama.
Обновление v0.23.4 (историческое, май 2026): кэширование API-ответов даёт 6.7-кратное улучшение задержки для повторяющихся запросов. Улучшена поддержка vision-моделей: более точное распознавание деталей на изображениях. Интеграция с Claude Desktop активна и поддерживается.
Установка: пошаговая инструкция
macOS
Скачайте Ollama с ollama.com. Откройте .dmg файл и перетащите Ollama в Applications. Запустите Ollama -- в строке меню появится иконка. В терминале: ollama run llama4 -- модель скачается и запустится.
Windows (с GUI)
В 2026 году Ollama выпустил Windows Desktop GUI. Скачайте .exe установщик с ollama.com. После установки откроется графический интерфейс: вкладка Models (доступные для скачивания), Running (запущенные модели), Settings (настройки GPU). Больше не нужно запоминать команды CLI -- всё через интерфейс.
Linux
Установка одной командой: curl -fsSL https://ollama.com/install.sh | sh. Ollama запустится как systemd-сервис автоматически.
Популярные модели 2026: что скачать первым
- Gemma 4 12B -- Google, мультимодальная (текст+изображения+аудио), encoder-free архитектура, 256K контекст, agentic tool-use, Apache 2.0 (3 июня 2026):
ollama run gemma4:12b(требует 16GB RAM/VRAM) - Gemma 4 (7B) -- Google, быстрая, хорошо работает на 8GB RAM:
ollama run gemma4:7b - Qwen3.6 (7B) -- Alibaba, лидер по coding-задачам в своём классе:
ollama run qwen3.6:7b - Qwen3.6 (27B) -- для машин с 16GB+ RAM, качество уровня GPT-5.5:
ollama run qwen3.6:27b - Kimi K2.6 (7B) -- Moonshot, длинный контекст, хорош для документов:
ollama run kimik2.6:7b - Llama 4 Scout -- Meta, нативная мультимодальность (изображения):
ollama run llama4:scout
Ollama и облачные модели
Ollama v0.23+ поддерживает облачные модели через единый API. Это означает что одним интерфейсом вы можете обращаться как к локальным, так и к облачным моделям. GPT-OSS 120B -- 120-миллиардная модель от OpenAI для enterprise-клиентов, доступна через Ollama API с соответствующими API-ключами. Настройка: добавьте API-ключ в Ollama settings, затем используйте ollama run gpt-oss-120b как обычную модель.
Производительность: советы
- Apple Silicon (M1/M2/M3/M4): Ollama автоматически использует MLX для оптимизированного запуска на Apple Neural Engine. Скорость генерации на M4 Max: 80-120 токенов/сек для 7B моделей.
- NVIDIA GPU: убедитесь что установлен CUDA 12+. Ollama автоматически определит GPU. Для 7B модели нужно 8GB VRAM, для 27B -- 24GB VRAM.
- CPU (без GPU): замедленная работа, но работает. Для CPU рекомендуйте модели не больше 7B.
- Параллельные запросы: Ollama поддерживает параллельные запросы через API. Установите
OLLAMA_NUM_PARALLEL=4для 4 параллельных запросов.
Использование Ollama из Python и других приложений
Ollama предоставляет REST API на порту 11434. Вы можете использовать его из любого языка программирования. Пример на Python:
import requests
response = requests.post('http://localhost:11434/api/generate', json={'model': 'qwen3.6:7b', 'prompt': 'Привет! Расскажи кратко о Python.', 'stream': False})
print(response.json()['response'])
Официальная Python-библиотека: pip install ollama. Затем:
import ollama
response = ollama.chat(model='qwen3.6:7b', messages=[{'role': 'user', 'content': 'Объясни рекурсию'}])
print(response['message']['content'])
Управление моделями
- Просмотр загруженных моделей:
ollama list - Удаление модели:
ollama rm qwen3.6:7b - Информация о модели:
ollama show qwen3.6:7b - Обновление модели:
ollama pull qwen3.6:7b(скачивает новую версию) - Копирование модели:
ollama cp qwen3.6:7b my-custom-model
Ollama с OpenWebUI: графический чат-интерфейс
OpenWebUI -- веб-интерфейс для Ollama, аналог ChatGPT но для локальных моделей. Установка через Docker:
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main
После запуска откройте http://localhost:3000. Вы увидите интерфейс как у ChatGPT, но работающий полностью локально с вашими Ollama моделями. Поддерживает: историю чатов, загрузку документов (RAG), мультимодальные модели (загрузка изображений).
Создание кастомных моделей (Modelfile)
Ollama позволяет создавать кастомные модели на основе существующих. Создайте файл Modelfile:
FROM qwen3.6:7b
SYSTEM "Ты -- корпоративный ассистент компании. Отвечай кратко и по делу. Никогда не обсуждай конкурентов."
PARAMETER temperature 0.3
Сборка: ollama create my-corp-assistant -f Modelfile. Запуск: ollama run my-corp-assistant. Кастомная модель работает как обычная но с заданными инструкциями и настройками.
Ollama v0.30.7 -- что нового (июнь 2026)
Ollama v0.30.7 -- актуальная версия на момент написания (7 июня 2026). Ключевые обновления v0.30:
- Обновлённый llama.cpp backend -- улучшенная производительность и совместимость с новыми форматами квантизации.
- HuggingFace GGUF прямая загрузка -- теперь можно загружать GGUF-модели напрямую с Hugging Face без предварительной конвертации:
ollama run hf.co/username/model. - MLX-оптимизация -- улучшенная поддержка Apple Silicon через MLX backend, значительный прирост скорости на M-серии чипов.
- NVIDIA производительность -- оптимизации для NVIDIA GPU, включая улучшенную работу с несколькими GPU.
- Gemma 4 12B поддержка -- v0.30.7 исправляет краш при запуске gemma4:12b.
- Hermes Desktop -- нативный графический интерфейс для Ollama (новая команда
ollama launch hermes-desktop). Hermes Desktop предоставляет десктопное приложение для управления моделями и ведения чата без терминала. - Поддержка пути конфигурации Windows -- исправлена проблема с обнаружением конфигурационного файла Ollama на Windows при нестандартных путях установки.
- Исправление Metal GPU offload для мультимодальных моделей на Apple Silicon -- устранена ошибка, при которой мультимодальные модели (например, gemma4, llava) некорректно распределяли слои между CPU и GPU на чипах M-серии.
Обновление до v0.30.7: ollama update (macOS/Linux) или скачайте установщик с ollama.com. На Linux: curl -fsSL https://ollama.com/install.sh | sh перезапишет старую версию.
Ollama и Codex App: AI-агент для кода
Начиная с Ollama v0.24.0, поддерживается интеграция с Codex App - десктопным приложением OpenAI для параллельных задач программирования. Запуск: ollama launch codex-app. Ollama настраивает Codex на использование локального OpenAI-совместимого endpoint, и вы можете использовать любую локальную модель (llama4, qwen3, gemma4) как AI-агент в редакторе кода. Codex App умеет открывать проект, понимать структуру файлов, вносить изменения и запускать задачи - всё локально. Рекомендуемые модели для Codex App: модели с контекстом от 64K токенов (Llama 4 Scout с 10M токенов - идеальный выбор).
M5 Neural Accelerators и NPU-ускорение
На чипах Apple M5, M5 Pro и M5 Max Ollama использует GPU Neural Accelerators - выделенные блоки матричного умножения в каждом GPU-ядре. Это ускоряет время до первого токена (TTFT) и скорость генерации в 3-4 раза по сравнению с M4. Все MLX-оптимизации работают автоматически - дополнительных настроек не требуется.
Обновления Ollama (июнь 2026): Актуальная версия: v0.30.10 (17-18 июня 2026). Предыдущие версии: v0.30.8 (12 июня 2026). Добавлена поддержка нативного интерфейса Hermes Desktop. Кэширование ответов API /show: медианная задержка снижена в 6,7 раза. Добавлена поддержка пути конфигурации Windows. Предыдущая версия v0.30.7 (7 июня) добавила поддержку модели Nemotron-3-Ultra от NVIDIA. Для Gemma 4 доступны QAT-веса в формате Q4_0 и мобильном формате: значительно снижают требования к памяти на устройствах с ограниченными ресурсами. Исправлена ошибка Metal GPU для мультимодальных задач на Mac.
Новые модели в Ollama (июнь 2026): MiniMax M3, DeepSeek V4 Pro и NVIDIA Nemotron 3 Ultra теперь доступны через ollama pull. Также добавлен улучшенный планировщик памяти для работы с несколькими моделями одновременно -- смена активной модели происходит быстрее благодаря оптимизированному управлению VRAM.
Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.
- Как установить LM Studio: AI с графическим интерфейсом на вашем компьютере
Ollama и LM Studio — два основных способа запустить локальный AI: терминал vs графический интерфейс
- Как установить Jan: open-source альтернатива ChatGPT на вашем компьютере
Jan — ещё одна альтернатива Ollama с открытым кодом и поддержкой как локальных, так и облачных моделей
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceНе пропускайте важное
Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.
Как начать пользоваться CodeRabbit: AI-ревью кода прямо в GitHub и GitLab
Гайд по CodeRabbit -- самому популярному AI-инструменту для автоматического ревью кода. 2 миллиона репозиториев, поддержка GitHub, GitLab, Azure DevOps и Bitbucket. Бесплатно для open-source проектов.
Как начать пользоваться Vidu: AI-генератор видео из текста и фото
Полный гайд по Vidu -- китайскому AI-сервису для создания видео. Бесплатный тариф, три режима генерации: из текста, из фото и по референсу. Никакой установки -- работает в браузере.
Как начать пользоваться Cline: автономный AI-агент для кода прямо в VS Code
Полный гайд по Cline -- open-source AI-агенту для VS Code с 5 миллионами установок. Работает с любой моделью, редактирует файлы, выполняет команды в терминале, открывает браузер. Apache 2.0, bring-your-own-key.