Подключение локальных моделей через Ollama к OpenClaw: пошаговая инструкция

Установка Ollama, выбор моделей, настройка OpenClaw для работы с локальными LLM и полностью автономный режим без облака

Aravana·2026-03-24·6 мин

Зачем использовать локальные модели

Подключение локальных языковых моделей к OpenClaw через Ollama даёт три ключевых преимущества. Во-первых, нулевая стоимость за запрос: после скачивания модели вы не платите за каждый вызов, что особенно важно с учётом механизма Heartbeat, генерирующего запросы каждые 30 минут. Во-вторых, полная конфиденциальность: все данные остаются на вашем компьютере, ни один символ не покидает вашу локальную сеть. В-третьих, отсутствие лимитов: никаких ограничений на количество запросов, размер контекста или скорость — всё определяется только мощностью вашего оборудования.

Ollama стал официально поддерживаемым провайдером OpenClaw в марте 2026 года, что значительно упростило интеграцию по сравнению с более ранними версиями.

Системные требования для локальных моделей

Работа с локальными LLM предъявляет серьёзные требования к аппаратному обеспечению. Главный ограничивающий фактор — объём видеопамяти (VRAM) для GPU-ускорения или оперативной памяти для CPU-инференса.

Минимальные требования для моделей разного размера: Модели 7B параметров (Llama 3.3 8B, Qwen 2.5 7B): 8 ГБ VRAM или 16 ГБ RAM. Модели 14B параметров (Qwen 2.5 14B): 16 ГБ VRAM или 24 ГБ RAM. Модели 27-32B параметров (Qwen3.5 27B, DeepSeek-R1 32B): 24 ГБ VRAM или 48 ГБ RAM. Крупные модели 70B+ параметров: 48+ ГБ VRAM.

Квантизация Q4_K_M — оптимальный баланс между качеством и потреблением памяти для большинства пользователей. Она существенно снижает требования к памяти при минимальной потере качества генерации.

Агенты OpenClaw лучше всего работают с моделями, поддерживающими контекстное окно не менее 64 000 токенов.

Установка Ollama

Ollama — это инструмент для запуска локальных LLM, доступный для macOS, Linux и Windows. Установка максимально проста.

macOS: скачайте установщик с официального сайта или используйте Homebrew:

brew install ollama

Linux: используйте официальный скрипт установки:

curl -fsSL https://ollama.com/install.sh | sh

После установки запустите сервер Ollama:

ollama serve

Сервер начнёт слушать на порту 11434 по умолчанию. На macOS Ollama также можно запустить как приложение через Launchpad — оно автоматически стартует сервер в фоновом режиме.

Проверьте, что Ollama работает:

ollama --version
curl http://localhost:11434/api/tags

Выбор и загрузка моделей

Выбор модели зависит от ваших аппаратных возможностей и требований к качеству. Вот рекомендации на март 2026 года.

Лучший вариант для начала — Llama 3.3 8B: она надёжно обрабатывает общие задачи, умещается в 8 ГБ RAM и загружается менее чем за 10 минут через Ollama.

ollama pull llama3.3

Для более сложных задач — Qwen 2.5 14B: лучшая производительность на многошаговых задачах и программировании, требует 16 ГБ RAM, стабильнее работает с вызовом инструментов и структурированным выводом.

ollama pull qwen2.5:14b

Топовый вариант — Qwen3.5 27B: показывает 72.4% на бенчмарке SWE-bench, что сопоставимо с GPT-5 Mini — открытая модель на одном потребительском GPU сравнивается с облачной платной моделью.

ollama pull qwen3.5:27b

Для рассуждений и аналитики — DeepSeek-R1: доступна в квантизованных версиях разного размера.

ollama pull deepseek-r1:14b

Для просмотра загруженных моделей используйте:

ollama list

Настройка OpenClaw для работы с Ollama

После установки Ollama и загрузки модели настройте OpenClaw на использование локального провайдера. В файле ~/.openclaw/openclaw.json добавьте или обновите секцию провайдеров:

{
  "models": {
    "providers": [
      {
        "name": "ollama",
        "api": "openai-responses",
        "baseUrl": "http://localhost:11434/v1",
        "model": "qwen2.5:14b"
      }
    ]
  }
}

Обратите внимание на два важных нюанса. Параметр baseUrl указывает на API-эндпоинт Ollama с суффиксом /v1 — это активирует OpenAI-совместимый режим. Параметр api должен быть установлен в значение "openai-responses", что обеспечивает корректный формат обмена данными.

Проверьте, что OpenClaw корректно подключается к Ollama:

openclaw send "Привет! Какая ты модель?"

Агент должен ответить, указав название локальной модели.

Настройка для Docker: использование host.docker.internal

Если OpenClaw работает в Docker-контейнере, а Ollama — на хост-машине, контейнер не может обращаться к localhost хоста напрямую. Используйте специальный DNS-адрес host.docker.internal:

{
  "models": {
    "providers": [
      {
        "name": "ollama",
        "api": "openai-responses",
        "baseUrl": "http://host.docker.internal:11434/v1",
        "model": "qwen2.5:14b"
      }
    ]
  }
}

На macOS с Docker Desktop host.docker.internal работает из коробки. На Linux может потребоваться дополнительная настройка в docker-compose.yml:

services:
  openclaw-gateway:
    extra_hosts:
      - "host.docker.internal:host-gateway"

Альтернативный подход — запустить и Ollama, и OpenClaw в Docker, объединив их в одну Docker-сеть. В этом случае сервисы обращаются друг к другу по именам контейнеров.

Оптимизация производительности

Скорость генерации локальных моделей зависит от множества факторов. Вот основные рекомендации по оптимизации.

GPU-ускорение: если у вас есть дискретная видеокарта NVIDIA с поддержкой CUDA или Apple Silicon (M1/M2/M3/M4), Ollama автоматически использует GPU для ускорения инференса. Убедитесь, что установлены актуальные драйверы. На Apple Silicon производительность особенно хороша благодаря унифицированной памяти.

Квантизация: модели с квантизацией Q4_K_M обеспечивают оптимальный баланс скорости и качества. Варианты Q5_K_M и Q6_K дают лучшее качество, но требуют больше памяти. Q3_K или Q2_K существенно снижают качество и рекомендуются только при жёстких ограничениях памяти.

Размер контекста: чем больше контекстное окно, тем больше памяти потребляет модель. Если ваши задачи не требуют длинного контекста, ограничьте его в настройках Ollama для экономии ресурсов.

Параллелизм: Ollama поддерживает обработку нескольких запросов одновременно. Для OpenClaw обычно достаточно одного параллельного слота, но если вы используете несколько агентов или каналов, увеличьте параметр OLLAMA_NUM_PARALLEL.

Полностью автономный режим работы

Одна из уникальных возможностей связки OpenClaw + Ollama — полностью автономная работа без подключения к интернету. После скачивания моделей (которое требует интернета) вся дальнейшая работа происходит локально. Это важно для конфиденциальных данных, работы в изолированных сетях или регионах с нестабильным интернетом.

Для полностью офлайн-режима: убедитесь, что модели скачаны заранее (ollama list для проверки), отключите навыки, требующие интернета (веб-поиск, электронная почта), настройте агента на использование только локальных инструментов (файловая система, скрипты). В этом режиме OpenClaw продолжает работать как персональный ассистент с памятью, Heartbeat и навыками, но без доступа к внешним сервисам.

Смешанный режим: локальные и облачные модели

OpenClaw поддерживает одновременное использование нескольких провайдеров. Вы можете настроить Ollama как основной провайдер для экономии, а облачную модель (например, Claude Sonnet) — как резервную для задач, требующих максимального качества.

В конфигурации это выглядит как массив провайдеров в секции models.providers: первым указывается Ollama (будет использоваться по умолчанию), вторым — облачный провайдер (для fallback или явного указания).

Устранение типичных проблем

Ollama не отвечает на запросы. Убедитесь, что сервер запущен (ollama serve) и слушает порт 11434. Проверьте доступность через curl http://localhost:11434/api/tags.

Модель работает очень медленно. Проверьте, используется ли GPU (команда nvidia-smi для NVIDIA). Если GPU недоступен, инференс происходит на CPU, что в 5-10 раз медленнее. Рассмотрите использование более лёгкой модели или квантизации Q4_K_M.

Ошибка нехватки памяти (OOM). Выбранная модель слишком велика для вашего оборудования. Переключитесь на модель меньшего размера или используйте более агрессивную квантизацию. На Apple Silicon Ollama использует унифицированную память (RAM), поэтому убедитесь, что свободно достаточно оперативной памяти.

OpenClaw не может подключиться к Ollama в Docker. Используйте host.docker.internal вместо localhost в baseUrl. На Linux добавьте extra_hosts в docker-compose.yml.

Агент генерирует некачественные ответы. Попробуйте более мощную модель. Модели 7B хороши для простых задач, но для сложного рассуждения и длинных инструкций нужна модель минимум 14B параметров.

Итоги

Связка OpenClaw и Ollama предоставляет полностью бесплатного, приватного и автономного AI-агента. Качество локальных моделей в 2026 году достигло уровня, когда Qwen3.5 27B на одном потребительском GPU показывает результаты, сопоставимые с коммерческими облачными моделями. Для большинства задач персонального ассистента, автоматизации и управления умным домом локальных моделей более чем достаточно, а отсутствие расходов на API и полный контроль над данными делают этот подход привлекательным для широкого круга пользователей.

Обновление v2026.4.26 принесло улучшенную обработку памяти и потоков запросов Ollama. OpenClaw теперь корректно управляет очередью одновременных запросов к Ollama, не перегружая локальный сервер. Добавлен встроенный протокол обнаружения Ollama - агент автоматически находит локально запущенный экземпляр.

Провайдер web_search теперь доступен для Ollama-моделей. OpenClaw может перехватывать поисковые запросы агента и выполнять их через локальный прокси без отправки данных в облако. Это позволяет строить полностью офлайн-агентные рабочие процессы с поиском по локальным источникам.

MLX-производительность на Apple Silicon: модели через Ollama на M3 и M4 запускаются в 2-3 раза быстрее, чем на Intel Mac с аналогичным объёмом ОЗУ. Для максимальной производительности рекомендуется Ollama 0.6+ с MLX-движком, автоматически выбираемым на Apple Silicon.

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

Тип материала: research

Поделиться:Telegram X LinkedIn

Как вам материал?

Как начать пользоваться OpenAI Codex: терминальный AI-агент для разработчиков

OpenAI Codex - официальный терминальный агент от OpenAI: пишет код, запускает тесты, делает PR-ревью прямо из командной строки. Полный гайд по установке и первым шагам.

2026-05-10·7 мин

С чего начать·Гайд

Как начать пользоваться Mureka: AI-генератор музыки с технологией MusiCoT

Mureka - новый AI-генератор музыки с уникальной функцией hum-to-song: напойте мелодию и получите полную песню. Полный гайд по регистрации, созданию треков и работе с Mureka V8.

2026-05-10·8 мин