Как установить Ollama: запуск AI-моделей на своём компьютере

Ollama — самый простой способ запустить AI-модели локально. Llama, Mistral, Qwen, DeepSeek — всё работает на вашем компьютере, без интернета, бесплатно и приватно.

Aravana··2 мин

Обновления Ollama (2026)

Ollama v0.30.10 (17-18 июня 2026) -- актуальная версия. MLX engine для Apple Silicon (начиная с v0.30.x) обеспечивает значительное ускорение для пользователей Mac. Ранее: v0.24.0 (14 мая 2026, историческое обновление): Gemma 4 support с MTP speculative decoding (Multi-Token Prediction) - скорость генерации увеличена в 2x+ без изменения качества. API caching улучшен в 6.7x - повторные запросы к одной модели значительно быстрее. Новые команды: ollama ps для просмотра запущенных моделей, ollama pull --insecure для локальных registry.

Актуальные модели в Ollama (июнь 2026): ollama pull llama4:17b (Llama 4 Scout), ollama pull qwen3.6-coder (Qwen3.6-Coder), ollama pull gemma4:4b (Gemma 4 для слабого железа), ollama pull phi4-mini (Microsoft Phi-4 Mini), ollama pull mistral3:7b. Полный каталог на ollama.com/library. ollama pull gemma4:12b (Gemma 4 12B, 3 июня 2026), ollama pull nemotron-3-nano (Nemotron 3 Nano 8B от NVIDIA), ollama pull deepseek-v4-pro (DeepSeek V4 Pro). Qwen 3.6 27B - лучший 27B вариант по соотношению качество/размер в 2026 году: ollama pull qwen3.6:27b. Llama 4 Scout - мультимодальный с контекстом 10M токенов: ollama pull llama4:scout.

Ollama REST API обновления: endpoint /api/generate поддерживает параметр cache_key для явного кэширования, /api/embeddings принимает батч запросы. OpenAI совместимый endpoint /v1/chat/completions поддерживает все параметры OpenAI API. Middleware режим через OLLAMA_PROXY=true для проксирования в облако при превышении локальных ресурсов.

Системные требования для актуальных моделей (середина 2026): 7B модели - 8 ГБ RAM/VRAM, 14B - 16 ГБ, 27B - 32 ГБ, 70B - 48 ГБ или CPU с 64 ГБ RAM в медленном режиме. Apple Silicon (M3/M4) использует унифицированную память: M3 Pro 18GB - комфортно для 14B, M4 Max 128GB - для 70B+.

Что такое Ollama

Ollama - бесплатная программа, которая позволяет запускать AI-модели с открытым кодом прямо на вашем компьютере. Без облака, без подписок, без отправки данных куда-либо. Всё работает локально - ваши данные остаются у вас. Через Ollama можно запустить тысячи моделей: Llama 4 Scout и Maverick (Meta, апрель 2026 -- Scout с контекстом 10 млн токенов), Gemma 4 31B (Google, апрель 2026, Apache 2.0), Kimi K2.7-Code (Moonshot AI, 12 июня 2026, 1T MoE, лидер в кодинге, +21.8% на Code Bench v2), Qwen, DeepSeek, Mistral, Phi (Microsoft) и другие. Это как иметь собственный ChatGPT на компьютере - бесплатно и приватно.

Требования

Mac: Apple Silicon (M1/M2/M3/M4) - 8+ ГБ RAM. На Intel Mac работает, но медленно. • Windows: 8+ ГБ RAM. С NVIDIA GPU - значительно быстрее. • Linux: 8+ ГБ RAM. • Чем больше RAM, тем более мощные модели можно запускать (16-32 ГБ - оптимально для серьёзной работы).

Доступ из России

Ollama работает локально. VPN не нужен.

Как установить на Mac

Шаг 1. Откройте ollama.com и скачайте версию для Mac. Шаг 2. Откройте скачанный файл и перетащите Ollama в Applications. Шаг 3. Запустите Ollama - иконка появится в строке меню. Шаг 4. Откройте Terminal и запустите первую модель: ollama run llama4 Шаг 5. Модель скачается и запустится. Вы в чате - задавайте вопросы.

Как установить на Windows

Шаг 1. Скачайте установщик с ollama.com. Шаг 2. Запустите установщик. Шаг 3. Откройте PowerShell или Command Prompt. Шаг 4. Запустите: ollama run llama4

Популярные модели в 2026

llama4 (Llama 4 Scout 17B) - флагман Meta, лучший общий выбор при 12+ ГБ VRAM. • kimi-k2.7-code (Kimi K2.7-Code) - лидер в кодинге среди не-Western моделей (Modified MIT, 1T MoE, 256K контекст, +21.8% на Kimi Code Bench v2). • qwen3 - мощная модель Alibaba, особенно сильна в коде (варианты от 4 до 30 ГБ). • deepseek-r2 - модель с глубокой логикой и reasoning. • gemma3 - лёгкая и быстрая модель Google. • mistral - компактная модель для чата. • phi4 - маленькая модель Microsoft с сильной логикой. • nemotron3-ultra (Nemotron 3 Ultra 550B) -- гибридная архитектура Mamba-Attention (MoE), 550 млрд параметров, выпущена 4 июня 2026: ollama pull nemotron3-ultra:550bnemotron-3-nano (Nemotron 3 Nano 8B) -- мультимодальная модель NVIDIA с поддержкой текста и изображений, оптимизирована для локального запуска.

Новое в 2026 (май--июнь)

Графический интерфейс

Ollama работает через терминал, но можно добавить визуальный интерфейс: • Open WebUI - веб-интерфейс в стиле ChatGPT (устанавливается через Docker). • Enchanted - нативное приложение для Mac (App Store). • Jan - десктопное приложение с GUI (Mac, Windows, Linux), умеет подключаться к Ollama как к бэкенду.

5 советов

1. Начните с маленькой модели. Например, gemma3 4B или qwen3 8B - быстро скачаются и работают на 8 ГБ RAM. 2. Используйте для приватных данных. Финансовые документы, медицинские данные, личные тексты - всё остаётся на вашем компьютере. 3. Подключайтесь по API. Ollama поднимает OpenAI-совместимый сервер на localhost:11434 - удобно для своих скриптов. 4. Скачивайте модели заранее. ollama pull llama4 - модель готова к запуску в любой момент. 5. Следите за VRAM. Если модель не помещается в видеопамять - Ollama переключится на CPU и работа замедлится.

Qwen3.6-27B и масштаб Ollama (май 2026)

Qwen3.6-27B теперь доступна в Ollama (лицензия Apache 2.0). Модель опережает значительно более крупные MoE-модели на задачах агентного кодинга -- при весе 27 ГБ она является одним из лучших соотношений качества и размера в 2026 году. Запуск: ollama run qwen3.6:27b.

По данным на май 2026, Ollama достигла 52 миллионов ежемесячных загрузок -- это крупнейшая open-source платформа для запуска локальных AI-моделей. Библиотека насчитывает более 4 500 моделей.

Structured Outputs (JSON schema) - новая возможность Ollama для получения ответов в строго заданном формате. Достаточно передать JSON-схему в API-запросе, и Ollama гарантирует, что ответ модели будет соответствовать ей. Это критически важно для приложений, которые парсят ответы модели программно.

Web Search API позволяет моделям в Ollama делать запросы в интернет прямо во время вывода. Модель самостоятельно решает, когда нужна актуальная информация, формирует поисковый запрос и включает результаты в ответ. Функция работает через настраиваемые поисковые плагины.

MLX-оптимизация для Apple Silicon значительно ускорила работу на Mac с чипами M-серии. Ollama теперь автоматически выбирает MLX-бэкенд при запуске на Apple Silicon, что даёт прирост скорости в 2-3 раза по сравнению с Universal-версией. Никаких дополнительных настроек не требуется.

MLX engine для Apple Silicon (Ollama v0.30.x, июнь 2026): Начиная с версий v0.30.x Ollama получил значительно улучшенный MLX engine для Apple Silicon. Прирост скорости генерации на чипах M-серии составляет 20-40% по сравнению с предыдущими версиями. Поддержка модели Cohere2Moe добавлена в v0.30.x. Новая функция: ollama pull cohere2moe. Для пользователей Mac -- это особенно значимое обновление: MLX backend теперь используется автоматически без дополнительных настроек, а скорость на M4 Max для 7B моделей достигает 100-130 токенов/сек.

Claude Desktop + Ollama: Интеграция с Claude Desktop поддерживается в текущих версиях Ollama. Для подключения: в Claude Desktop откройте Настройки -- найдите раздел 'Integrations' или 'Local AI Provider' -- укажите Ollama endpoint (http://localhost:11434). После этого Claude Desktop сможет использовать локальные модели через Ollama.

Обновление v0.23.4 (историческое, май 2026): кэширование API-ответов даёт 6.7-кратное улучшение задержки для повторяющихся запросов. Улучшена поддержка vision-моделей: более точное распознавание деталей на изображениях. Интеграция с Claude Desktop активна и поддерживается.

Установка: пошаговая инструкция

macOS

Скачайте Ollama с ollama.com. Откройте .dmg файл и перетащите Ollama в Applications. Запустите Ollama -- в строке меню появится иконка. В терминале: ollama run llama4 -- модель скачается и запустится.

Windows (с GUI)

В 2026 году Ollama выпустил Windows Desktop GUI. Скачайте .exe установщик с ollama.com. После установки откроется графический интерфейс: вкладка Models (доступные для скачивания), Running (запущенные модели), Settings (настройки GPU). Больше не нужно запоминать команды CLI -- всё через интерфейс.

Linux

Установка одной командой: curl -fsSL https://ollama.com/install.sh | sh. Ollama запустится как systemd-сервис автоматически.

Популярные модели 2026: что скачать первым

  • Gemma 4 12B -- Google, мультимодальная (текст+изображения+аудио), encoder-free архитектура, 256K контекст, agentic tool-use, Apache 2.0 (3 июня 2026): ollama run gemma4:12b (требует 16GB RAM/VRAM)
  • Gemma 4 (7B) -- Google, быстрая, хорошо работает на 8GB RAM: ollama run gemma4:7b
  • Qwen3.6 (7B) -- Alibaba, лидер по coding-задачам в своём классе: ollama run qwen3.6:7b
  • Qwen3.6 (27B) -- для машин с 16GB+ RAM, качество уровня GPT-5.5: ollama run qwen3.6:27b
  • Kimi K2.6 (7B) -- Moonshot, длинный контекст, хорош для документов: ollama run kimik2.6:7b
  • Llama 4 Scout -- Meta, нативная мультимодальность (изображения): ollama run llama4:scout

Ollama и облачные модели

Ollama v0.23+ поддерживает облачные модели через единый API. Это означает что одним интерфейсом вы можете обращаться как к локальным, так и к облачным моделям. GPT-OSS 120B -- 120-миллиардная модель от OpenAI для enterprise-клиентов, доступна через Ollama API с соответствующими API-ключами. Настройка: добавьте API-ключ в Ollama settings, затем используйте ollama run gpt-oss-120b как обычную модель.

Производительность: советы

  • Apple Silicon (M1/M2/M3/M4): Ollama автоматически использует MLX для оптимизированного запуска на Apple Neural Engine. Скорость генерации на M4 Max: 80-120 токенов/сек для 7B моделей.
  • NVIDIA GPU: убедитесь что установлен CUDA 12+. Ollama автоматически определит GPU. Для 7B модели нужно 8GB VRAM, для 27B -- 24GB VRAM.
  • CPU (без GPU): замедленная работа, но работает. Для CPU рекомендуйте модели не больше 7B.
  • Параллельные запросы: Ollama поддерживает параллельные запросы через API. Установите OLLAMA_NUM_PARALLEL=4 для 4 параллельных запросов.

Использование Ollama из Python и других приложений

Ollama предоставляет REST API на порту 11434. Вы можете использовать его из любого языка программирования. Пример на Python:

import requests
response = requests.post('http://localhost:11434/api/generate', json={'model': 'qwen3.6:7b', 'prompt': 'Привет! Расскажи кратко о Python.', 'stream': False})
print(response.json()['response'])

Официальная Python-библиотека: pip install ollama. Затем:

import ollama
response = ollama.chat(model='qwen3.6:7b', messages=[{'role': 'user', 'content': 'Объясни рекурсию'}])
print(response['message']['content'])

Управление моделями

  • Просмотр загруженных моделей: ollama list
  • Удаление модели: ollama rm qwen3.6:7b
  • Информация о модели: ollama show qwen3.6:7b
  • Обновление модели: ollama pull qwen3.6:7b (скачивает новую версию)
  • Копирование модели: ollama cp qwen3.6:7b my-custom-model

Ollama с OpenWebUI: графический чат-интерфейс

OpenWebUI -- веб-интерфейс для Ollama, аналог ChatGPT но для локальных моделей. Установка через Docker:

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main

После запуска откройте http://localhost:3000. Вы увидите интерфейс как у ChatGPT, но работающий полностью локально с вашими Ollama моделями. Поддерживает: историю чатов, загрузку документов (RAG), мультимодальные модели (загрузка изображений).

Создание кастомных моделей (Modelfile)

Ollama позволяет создавать кастомные модели на основе существующих. Создайте файл Modelfile:

FROM qwen3.6:7b
SYSTEM "Ты -- корпоративный ассистент компании. Отвечай кратко и по делу. Никогда не обсуждай конкурентов."
PARAMETER temperature 0.3

Сборка: ollama create my-corp-assistant -f Modelfile. Запуск: ollama run my-corp-assistant. Кастомная модель работает как обычная но с заданными инструкциями и настройками.

Ollama v0.30.7 -- что нового (июнь 2026)

Ollama v0.30.7 -- актуальная версия на момент написания (7 июня 2026). Ключевые обновления v0.30:

  • Обновлённый llama.cpp backend -- улучшенная производительность и совместимость с новыми форматами квантизации.
  • HuggingFace GGUF прямая загрузка -- теперь можно загружать GGUF-модели напрямую с Hugging Face без предварительной конвертации: ollama run hf.co/username/model.
  • MLX-оптимизация -- улучшенная поддержка Apple Silicon через MLX backend, значительный прирост скорости на M-серии чипов.
  • NVIDIA производительность -- оптимизации для NVIDIA GPU, включая улучшенную работу с несколькими GPU.
  • Gemma 4 12B поддержка -- v0.30.7 исправляет краш при запуске gemma4:12b.
  • Hermes Desktop -- нативный графический интерфейс для Ollama (новая команда ollama launch hermes-desktop). Hermes Desktop предоставляет десктопное приложение для управления моделями и ведения чата без терминала.
  • Поддержка пути конфигурации Windows -- исправлена проблема с обнаружением конфигурационного файла Ollama на Windows при нестандартных путях установки.
  • Исправление Metal GPU offload для мультимодальных моделей на Apple Silicon -- устранена ошибка, при которой мультимодальные модели (например, gemma4, llava) некорректно распределяли слои между CPU и GPU на чипах M-серии.

Обновление до v0.30.7: ollama update (macOS/Linux) или скачайте установщик с ollama.com. На Linux: curl -fsSL https://ollama.com/install.sh | sh перезапишет старую версию.

Ollama и Codex App: AI-агент для кода

Начиная с Ollama v0.24.0, поддерживается интеграция с Codex App - десктопным приложением OpenAI для параллельных задач программирования. Запуск: ollama launch codex-app. Ollama настраивает Codex на использование локального OpenAI-совместимого endpoint, и вы можете использовать любую локальную модель (llama4, qwen3, gemma4) как AI-агент в редакторе кода. Codex App умеет открывать проект, понимать структуру файлов, вносить изменения и запускать задачи - всё локально. Рекомендуемые модели для Codex App: модели с контекстом от 64K токенов (Llama 4 Scout с 10M токенов - идеальный выбор).

M5 Neural Accelerators и NPU-ускорение

На чипах Apple M5, M5 Pro и M5 Max Ollama использует GPU Neural Accelerators - выделенные блоки матричного умножения в каждом GPU-ядре. Это ускоряет время до первого токена (TTFT) и скорость генерации в 3-4 раза по сравнению с M4. Все MLX-оптимизации работают автоматически - дополнительных настроек не требуется.

Обновления Ollama (июнь 2026): Актуальная версия: v0.30.10 (17-18 июня 2026). Предыдущие версии: v0.30.8 (12 июня 2026). Добавлена поддержка нативного интерфейса Hermes Desktop. Кэширование ответов API /show: медианная задержка снижена в 6,7 раза. Добавлена поддержка пути конфигурации Windows. Предыдущая версия v0.30.7 (7 июня) добавила поддержку модели Nemotron-3-Ultra от NVIDIA. Для Gemma 4 доступны QAT-веса в формате Q4_0 и мобильном формате: значительно снижают требования к памяти на устройствах с ограниченными ресурсами. Исправлена ошибка Metal GPU для мультимодальных задач на Mac.

Новые модели в Ollama (июнь 2026): MiniMax M3, DeepSeek V4 Pro и NVIDIA Nemotron 3 Ultra теперь доступны через ollama pull. Также добавлен улучшенный планировщик памяти для работы с несколькими моделями одновременно -- смена активной модели происходит быстрее благодаря оптимизированному управлению VRAM.

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

Тип материала: research

Поделиться:TelegramXLinkedIn
Как вам материал?

Читайте также

Хотите получать подобные материалы раньше?

Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.

Узнать про Intelligence

Не пропускайте важное

Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.

Похожие материалы

Как начать пользоваться Vidu: AI-генератор видео из текста и фото

Полный гайд по Vidu -- китайскому AI-сервису для создания видео. Бесплатный тариф, три режима генерации: из текста, из фото и по референсу. Никакой установки -- работает в браузере.

·7 мин

Как начать пользоваться Cline: автономный AI-агент для кода прямо в VS Code

Полный гайд по Cline -- open-source AI-агенту для VS Code с 5 миллионами установок. Работает с любой моделью, редактирует файлы, выполняет команды в терминале, открывает браузер. Apache 2.0, bring-your-own-key.

·7 мин

Как начать пользоваться CodeRabbit: AI-ревью кода прямо в GitHub и GitLab

Гайд по CodeRabbit -- самому популярному AI-инструменту для автоматического ревью кода. 2 миллиона репозиториев, поддержка GitHub, GitLab, Azure DevOps и Bitbucket. Бесплатно для open-source проектов.

·7 мин