Подключение локальных моделей через Ollama к OpenClaw: пошаговая инструкция
Установка Ollama, выбор моделей, настройка OpenClaw для работы с локальными LLM и полностью автономный режим без облака
Тип материала: research
Зачем использовать локальные модели
Подключение локальных языковых моделей к OpenClaw через Ollama даёт три ключевых преимущества. Во-первых, нулевая стоимость за запрос: после скачивания модели вы не платите за каждый вызов, что особенно важно с учётом механизма Heartbeat, генерирующего запросы каждые 30 минут. Во-вторых, полная конфиденциальность: все данные остаются на вашем компьютере, ни один символ не покидает вашу локальную сеть. В-третьих, отсутствие лимитов: никаких ограничений на количество запросов, размер контекста или скорость — всё определяется только мощностью вашего оборудования.
Ollama стал официально поддерживаемым провайдером OpenClaw в марте 2026 года, что значительно упростило интеграцию по сравнению с более ранними версиями.
Системные требования для локальных моделей
Работа с локальными LLM предъявляет серьёзные требования к аппаратному обеспечению. Главный ограничивающий фактор — объём видеопамяти (VRAM) для GPU-ускорения или оперативной памяти для CPU-инференса.
Минимальные требования для моделей разного размера: Модели 7B параметров (Llama 3.3 8B, Qwen 2.5 7B): 8 ГБ VRAM или 16 ГБ RAM. Модели 14B параметров (Qwen 2.5 14B): 16 ГБ VRAM или 24 ГБ RAM. Модели 27-32B параметров (Qwen3.5 27B, DeepSeek-R1 32B): 24 ГБ VRAM или 48 ГБ RAM. Крупные модели 70B+ параметров: 48+ ГБ VRAM.
Квантизация Q4_K_M — оптимальный баланс между качеством и потреблением памяти для большинства пользователей. Она существенно снижает требования к памяти при минимальной потере качества генерации.
Агенты OpenClaw лучше всего работают с моделями, поддерживающими контекстное окно не менее 64 000 токенов.
Установка Ollama
Ollama — это инструмент для запуска локальных LLM, доступный для macOS, Linux и Windows. Установка максимально проста.
macOS: скачайте установщик с официального сайта или используйте Homebrew:
brew install ollamaLinux: используйте официальный скрипт установки:
curl -fsSL https://ollama.com/install.sh | shПосле установки запустите сервер Ollama:
ollama serveСервер начнёт слушать на порту 11434 по умолчанию. На macOS Ollama также можно запустить как приложение через Launchpad — оно автоматически стартует сервер в фоновом режиме.
Проверьте, что Ollama работает:
ollama --version
curl http://localhost:11434/api/tagsВыбор и загрузка моделей
Выбор модели зависит от ваших аппаратных возможностей и требований к качеству. Вот рекомендации на март 2026 года.
Лучший вариант для начала — Llama 3.3 8B: она надёжно обрабатывает общие задачи, умещается в 8 ГБ RAM и загружается менее чем за 10 минут через Ollama.
ollama pull llama3.3Для более сложных задач — Qwen 2.5 14B: лучшая производительность на многошаговых задачах и программировании, требует 16 ГБ RAM, стабильнее работает с вызовом инструментов и структурированным выводом.
ollama pull qwen2.5:14bТоповый вариант — Qwen3.5 27B: показывает 72.4% на бенчмарке SWE-bench, что сопоставимо с GPT-5 Mini — открытая модель на одном потребительском GPU сравнивается с облачной платной моделью.
ollama pull qwen3.5:27bДля рассуждений и аналитики — DeepSeek-R1: доступна в квантизованных версиях разного размера.
ollama pull deepseek-r1:14bДля просмотра загруженных моделей используйте:
ollama listНастройка OpenClaw для работы с Ollama
После установки Ollama и загрузки модели настройте OpenClaw на использование локального провайдера. В файле ~/.openclaw/openclaw.json добавьте или обновите секцию провайдеров:
{
"models": {
"providers": [
{
"name": "ollama",
"api": "openai-responses",
"baseUrl": "http://localhost:11434/v1",
"model": "qwen2.5:14b"
}
]
}
}Обратите внимание на два важных нюанса. Параметр baseUrl указывает на API-эндпоинт Ollama с суффиксом /v1 — это активирует OpenAI-совместимый режим. Параметр api должен быть установлен в значение "openai-responses", что обеспечивает корректный формат обмена данными.
Проверьте, что OpenClaw корректно подключается к Ollama:
openclaw send "Привет! Какая ты модель?"Агент должен ответить, указав название локальной модели.
Настройка для Docker: использование host.docker.internal
Если OpenClaw работает в Docker-контейнере, а Ollama — на хост-машине, контейнер не может обращаться к localhost хоста напрямую. Используйте специальный DNS-адрес host.docker.internal:
{
"models": {
"providers": [
{
"name": "ollama",
"api": "openai-responses",
"baseUrl": "http://host.docker.internal:11434/v1",
"model": "qwen2.5:14b"
}
]
}
}На macOS с Docker Desktop host.docker.internal работает из коробки. На Linux может потребоваться дополнительная настройка в docker-compose.yml:
services:
openclaw-gateway:
extra_hosts:
- "host.docker.internal:host-gateway"Альтернативный подход — запустить и Ollama, и OpenClaw в Docker, объединив их в одну Docker-сеть. В этом случае сервисы обращаются друг к другу по именам контейнеров.
Оптимизация производительности
Скорость генерации локальных моделей зависит от множества факторов. Вот основные рекомендации по оптимизации.
GPU-ускорение: если у вас есть дискретная видеокарта NVIDIA с поддержкой CUDA или Apple Silicon (M1/M2/M3/M4), Ollama автоматически использует GPU для ускорения инференса. Убедитесь, что установлены актуальные драйверы. На Apple Silicon производительность особенно хороша благодаря унифицированной памяти.
Квантизация: модели с квантизацией Q4_K_M обеспечивают оптимальный баланс скорости и качества. Варианты Q5_K_M и Q6_K дают лучшее качество, но требуют больше памяти. Q3_K или Q2_K существенно снижают качество и рекомендуются только при жёстких ограничениях памяти.
Размер контекста: чем больше контекстное окно, тем больше памяти потребляет модель. Если ваши задачи не требуют длинного контекста, ограничьте его в настройках Ollama для экономии ресурсов.
Параллелизм: Ollama поддерживает обработку нескольких запросов одновременно. Для OpenClaw обычно достаточно одного параллельного слота, но если вы используете несколько агентов или каналов, увеличьте параметр OLLAMA_NUM_PARALLEL.
Рекомендуемые модели для различных задач OpenClaw
Для повседневного использования в качестве персонального ассистента (ответы на вопросы, заметки, напоминания) подойдёт Llama 3.3 8B — быстрая и достаточно умная. Для программирования и сложных аналитических задач лучше использовать Qwen 2.5 14B или Qwen3.5 27B. Для задач, требующих цепочки рассуждений (планирование, анализ), оптимален DeepSeek-R1 14B или 32B. Для Heartbeat-задач (проверка почты, простые напоминания) достаточно самой лёгкой модели, чтобы минимизировать нагрузку на систему.
Полностью автономный режим работы
Одна из уникальных возможностей связки OpenClaw + Ollama — полностью автономная работа без подключения к интернету. После скачивания моделей (которое требует интернета) вся дальнейшая работа происходит локально. Это важно для конфиденциальных данных, работы в изолированных сетях или регионах с нестабильным интернетом.
Для полностью офлайн-режима: убедитесь, что модели скачаны заранее (ollama list для проверки), отключите навыки, требующие интернета (веб-поиск, электронная почта), настройте агента на использование только локальных инструментов (файловая система, скрипты). В этом режиме OpenClaw продолжает работать как персональный ассистент с памятью, Heartbeat и навыками, но без доступа к внешним сервисам.
Смешанный режим: локальные и облачные модели
OpenClaw поддерживает одновременное использование нескольких провайдеров. Вы можете настроить Ollama как основной провайдер для экономии, а облачную модель (например, Claude Sonnet) — как резервную для задач, требующих максимального качества.
В конфигурации это выглядит как массив провайдеров в секции models.providers: первым указывается Ollama (будет использоваться по умолчанию), вторым — облачный провайдер (для fallback или явного указания).
Устранение типичных проблем
Ollama не отвечает на запросы. Убедитесь, что сервер запущен (ollama serve) и слушает порт 11434. Проверьте доступность через curl http://localhost:11434/api/tags.
Модель работает очень медленно. Проверьте, используется ли GPU (команда nvidia-smi для NVIDIA). Если GPU недоступен, инференс происходит на CPU, что в 5-10 раз медленнее. Рассмотрите использование более лёгкой модели или квантизации Q4_K_M.
Ошибка нехватки памяти (OOM). Выбранная модель слишком велика для вашего оборудования. Переключитесь на модель меньшего размера или используйте более агрессивную квантизацию. На Apple Silicon Ollama использует унифицированную память (RAM), поэтому убедитесь, что свободно достаточно оперативной памяти.
OpenClaw не может подключиться к Ollama в Docker. Используйте host.docker.internal вместо localhost в baseUrl. На Linux добавьте extra_hosts в docker-compose.yml.
Агент генерирует некачественные ответы. Попробуйте более мощную модель. Модели 7B хороши для простых задач, но для сложного рассуждения и длинных инструкций нужна модель минимум 14B параметров.
Итоги
Связка OpenClaw и Ollama предоставляет полностью бесплатного, приватного и автономного AI-агента. Качество локальных моделей в 2026 году достигло уровня, когда Qwen3.5 27B на одном потребительском GPU показывает результаты, сопоставимые с коммерческими облачными моделями. Для большинства задач персонального ассистента, автоматизации и управления умным домом локальных моделей более чем достаточно, а отсутствие расходов на API и полный контроль над данными делают этот подход привлекательным для широкого круга пользователей.
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceНе пропускайте важное
Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.
Корпоративные политики работы с AI: как внедрить безопасно
Пошаговое руководство по созданию корпоративной политики использования AI — от выбора разрешённых инструментов и классификации данных до борьбы с теневым AI и обучения сотрудников
Установка OpenClaw через Docker: пошаговая инструкция
Развёртывание OpenClaw в контейнере Docker: docker run, docker-compose, настройка томов, портов и сетей
Что такое OpenClaw: полный обзор платформы
История создания, архитектура и ключевые отличия агентной платформы OpenClaw от обычных чат-ботов