Cogito v1: как запустить гибридную reasoning-модель на своем компьютере

Полный гайд по Cogito v1 Preview от Deep Cogito: установка через Ollama, включение режима размышления, сравнение с LLaMA и DeepSeek, запуск на обычном ноутбуке

2026-05-29·7 мин

Что это и для кого

Важный контекст: Cogito v2.1 (671B MoE, ноябрь 2025) -- текущий флагман Deep Cogito, доступный через облачный API. Cogito v1 -- предшествующая версия, которая по-прежнему актуальна для локального запуска на слабом железе (3B, 8B, 14B, 32B, 70B варианты через Ollama). Этот гайд описывает оба варианта: v1 для локального запуска и v2.1 для API-использования.

Cogito v1 Preview -- это семейство гибридных языковых моделей от компании Deep Cogito. Главная особенность -- гибридный режим рассуждения: быстрый ответ или развернутое reasoning (think mode) для каждого запроса. Для локального запуска без интернета и без подписки v1 по-прежнему отличный выбор.

Что делает Cogito v1 уникальным среди локальных моделей - это гибридный режим рассуждения (hybrid reasoning). В отличие от обычных моделей, которые сразу выдают ответ, или reasoning-моделей, которые всегда думают долго, Cogito v1 позволяет переключать режим для каждого запроса: хотите быстрый ответ - получаете мгновенно, хотите развернутое рассуждение - модель сначала думает, затем отвечает. Это как иметь в одном пакете и быстрый Gemini Flash, и медленный но глубокий Gemini Pro.

Когито обучался методом Iterated Distillation and Amplification (IDA) - алгоритм, разработанный для постепенного самоулучшения модели через итеративное усиление. На практике это означает, что модель хорошо обобщает: она понимает инструкции, пишет код, решает математику и отвечает на открытые вопросы примерно одинаково хорошо, без явных слабых мест.

Cogito v1 доступен в нескольких размерах: 3B, 8B, 14B, 32B и 70B параметров, а также вышли Cogito v2 и v2.1 (флагман -- v2.1 671B MoE, доступен через API). Для обычного ноутбука с 8-16 ГБ оперативной памяти наиболее подходящая версия - 8B. Все размеры доступны через Ollama, что делает установку максимально простой. Модели поддерживают более 30 языков, включая русский, контекстное окно составляет 128 тысяч токенов, а лицензия позволяет коммерческое использование.

Этот гайд подойдет всем, кто хочет иметь полноценный AI-ассистент без подписок и ежемесячных платежей, кто работает с конфиденциальными данными и не может отправлять их в облако, а также разработчикам, которые хотят встроить локальную AI в свои приложения. Также Cogito v1 будет интересен тем, кто уже пользуется Ollama и хочет попробовать нечто новое помимо стандартного набора из Gemma, Llama и Mistral.

Как установить Cogito v1 через Ollama

Прежде всего нужен Ollama - бесплатный инструмент для запуска AI-моделей локально. Если у вас его еще нет, перейдите на ollama.com и скачайте установщик для вашей операционной системы. Ollama работает на macOS (Intel и Apple Silicon), Windows и Linux. Установка занимает несколько минут и не требует особых технических знаний.

После установки Ollama откройте терминал (на macOS это Terminal.app, на Windows - PowerShell или командная строка) и выполните следующую команду для скачивания Cogito v1 8B - оптимального размера для большинства компьютеров:

ollama pull cogito:8b-v1-preview

Если у вас мощный компьютер с видеокартой и более 16 ГБ видеопамяти, попробуйте версию 14B:

ollama pull cogito:14b-v1-preview-qwen-q8_0

Для слабых компьютеров или нетбуков с 8 ГБ оперативной памяти подойдет версия 3B:

ollama pull cogito:3b-v1-preview-llama-q4_K_M

Скачивание займет от нескольких минут до получаса в зависимости от размера модели и скорости интернета. Модель 8B весит примерно 5 ГБ в квантизированном формате. После завершения загрузки модель хранится локально и больше не требует интернета.

Помимо Ollama, Cogito v1 доступен через облачные API Fireworks AI и Together AI - это удобно для разработчиков, которые хотят использовать модель через привычный OpenAI-совместимый интерфейс без локальной установки.

Первый запуск: что попробовать

Запустите модель в интерактивном режиме командой:

ollama run cogito:8b-v1-preview

Вы увидите строку ввода. Напишите любой простой вопрос, например: 'Привет, кто ты?' Модель ответит на русском без дополнительных настроек - поддержка кириллицы работает из коробки.

Теперь самое интересное - попробуйте гибридный режим рассуждения. Чтобы включить think mode для конкретного запроса, добавьте в начале сообщения специальную инструкцию. Самый простой способ - написать: 'Используй расширенное рассуждение. [ваш вопрос]'. Вы увидите, как модель сначала выводит блок размышлений в угловых скобках, а затем финальный ответ. Это особенно заметно на задачах с кодом или математикой.

Попробуйте задачу на программирование: 'Напиши функцию на Python, которая находит все простые числа до N методом решета Эратосфена, и объясни каждую строку.' С включенным think mode модель сначала разберет задачу пошагово, затем напишет чистый код с комментариями.

Для работы через графический интерфейс установите Open WebUI - это бесплатная веб-оболочка для Ollama. После установки откройте localhost:3000 в браузере, выберите Cogito из списка моделей и работайте как в обычном чат-боте, только полностью локально. Open WebUI поддерживает загрузку документов, историю чатов и переключение между моделями.

Для проверки производительности попробуйте несколько типов задач подряд: написание кода, объяснение концепции, решение логической головоломки. Cogito v1 обучен быть равномерно сильным во всех областях, и на 8B версии это хорошо заметно по сравнению с Llama 3 8B того же размера.

Ключевые фишки Cogito v1

Гибридное рассуждение. Главная особенность Cogito - возможность переключать режим работы на уровне запроса, а не на уровне модели. Обычный режим дает быстрые ответы для простых задач. Think mode активирует внутренние рассуждения: модель сначала думает (этот процесс виден как блок текста), затем формирует итоговый ответ. Это принципиально отличается от, например, DeepSeek R1, который всегда работает в режиме рассуждения и не оптимален для быстрых ответов.

Обучение методом IDA. Iterated Distillation and Amplification - метод, при котором модель итеративно улучшает себя: сначала учится у более сильного учителя, затем сама становится учителем для следующей итерации. В результате Cogito v1 демонстрирует значительно лучшие результаты на стандартных бенчмарках по сравнению с базовыми моделями того же размера - в частности, на MMLU (знания), HumanEval (код) и GSM8K (математика).

Несколько размеров под разное железо. Три доступных размера позволяют выбрать оптимальный вариант. Версия 3B работает даже на MacBook Air M1 с 8 ГБ памяти, хотя качество ответов заметно скромнее. Версия 8B - золотая середина для большинства современных компьютеров. Версия 14B требует около 10-12 ГБ оперативной памяти и заметно превосходит 8B в сложных рассуждениях. Все версии оптимизированы для CPU-запуска, хотя GPU ускоряет работу в разы.

Широкая языковая поддержка. Cogito v1 обучен на более чем 30 языках, включая русский, немецкий, французский, испанский, китайский и другие. Качество ответов на русском языке сопоставимо с Qwen 2.5 и LLaMA 3 аналогичного размера - это хорошее значение для местных open-source моделей.

Большое контекстное окно. 128 тысяч токенов контекста - это примерно 96 тысяч слов или несколько сотен страниц текста. Вы можете загрузить в контекст целый роман, несколько статей или большой файл кода и задавать вопросы по всему тексту сразу. Для сравнения, ранние версии LLaMA работали с 4-8 тысячами токенов.

OpenAI-совместимый API. Ollama поднимает локальный сервер на порту 11434, совместимый со стандартом OpenAI API. Это означает, что любое приложение, написанное для работы с ChatGPT через API, можно переключить на локальный Cogito, изменив только базовый URL. Популярные инструменты вроде LangChain, LlamaIndex и большинства AI-IDE работают с Ollama без дополнительной настройки.

Качественная работа с инструкциями и форматированием. По сравнению с другими open-source моделями того же размера, Cogito v1 более точно следует сложным многошаговым инструкциям. Модель хорошо поддерживает вывод в формате JSON, Markdown и XML - это важно при написании приложений, которые парсят ответы AI. Инструктивный файн-тюнинг охватывал широкий спектр задач, что позволяет использовать Cogito в production без дополнительной настройки системного промпта.

Цены и ограничения

Cogito v1 - полностью бесплатная модель с открытой лицензией для коммерческого использования. Никаких подписок, ежемесячных платежей или лимитов запросов не существует. Единственная 'цена' - это вычислительные ресурсы вашего компьютера.

По производительности: версия 8B на MacBook Pro M2 обрабатывает около 30-50 токенов в секунду, что соответствует скорости чтения - ответ появляется плавно в реальном времени. На Windows с GPU NVIDIA скорость выше в 3-5 раз. На бюджетных ноутбуках с Intel Core i5 и 8 ГБ RAM скорость падает до 5-10 токенов в секунду - медленно, но вполне рабочо для нетребовательных задач.

Требования к оборудованию: для версии 3B нужно не менее 4 ГБ оперативной памяти, для 8B - не менее 6 ГБ (желательно 8 ГБ), для 14B - не менее 10 ГБ. Дисковое пространство: 3B занимает около 2 ГБ, 8B около 5 ГБ, 14B около 9 ГБ в квантизированном формате. Операционная система: macOS 12+, Windows 10+, Ubuntu 20.04+.

Ограничения модели: версии 3B и 8B заметно уступают облачным флагманам вроде GPT-5.5 или Claude Opus 4.6 на сложных задачах. Think mode значительно снижает скорость генерации - ждать 2-5 минут на слабом железе для одного ответа при включенном рассуждении вполне нормально. Для повседневных задач - помощь с текстом, кодом, поиск ответов на вопросы - 8B версия справляется отлично.

Облачный API через Fireworks AI и Together AI - платный, но позволяет использовать большие версии модели (109B, 400B) без локальных ресурсов. Цены на этих платформах сопоставимы с другими провайдерами: около 0.1-0.5 доллара за миллион токенов в зависимости от размера модели.

Нужен ли VPN из России

Для локальной установки через Ollama VPN не нужен вовсе. Ollama скачивается с ollama.com, а сами модели - с репозитория Ollama или с Hugging Face. Оба сайта доступны из России без ограничений. После скачивания модели работают полностью офлайн - никаких серверов xAI, OpenAI или Google они не используют.

Если вы хотите использовать облачный API Fireworks AI или Together AI, оба сервиса на момент написания доступны из России. Регистрация возможна через email, оплата принимается картами Visa и Mastercard - включая некоторые российские банки, хотя ситуация с приемом карт регулярно меняется. Проверяйте актуальные данные на форумах перед регистрацией.

Hugging Face, где хранятся веса модели для прямого скачивания, также доступен без VPN. Если вы хотите скачать модель напрямую без Ollama, команда: huggingface-cli download deepcogito/cogito-v1-preview-llama-8B. Для этого потребуется установить Python и пакет huggingface_hub.

Локальный AI - это вообще наиболее защищенный от любых ограничений вариант: когда модель уже скачана на ваш компьютер, ни блокировки сайтов, ни закрытие аккаунта, ни изменение условий использования сервиса вас не затронут. Именно это делает локальные модели особенно привлекательными для пользователей в странах с ограниченным доступом к иностранным сервисам.

Cogito v2 и v2.1: что изменилось

Cogito v2.1 -- текущий флагман Deep Cogito (671B MoE, ноябрь 2025). После локальных моделей v1, компания выпустила v2 и v2.1 для облачного использования. Флагманская модель Cogito v2.1 671B -- это смесь экспертов (MoE) с 671 миллиардом параметров (37B активных при каждом вызове), доступная через облачные API.

-- 60% более короткие reasoning chains (средний ответ 4,894 токена -- наиболее эффективный показатель среди frontier-моделей). 98.57% на MATH-500 -- лучший результат среди моделей с открытым доступом. Доступна через Together AI ($1.25/M токенов на момент написания), Fireworks AI, OpenRouter.

Главное улучшение v2.1 -- эффективность рассуждений: модель генерирует в среднем 4894 токена на ответ -- наименьший показатель среди frontier-моделей. При этом качество рассуждений сопоставимо с DeepSeek R1, но цепочки примерно на 60% короче. Это означает меньшие затраты при работе через API.

Как запустить Cogito v2 локально. Через Ollama доступны облачные варианты v2, однако для полностью локального запуска оптимальны модели v1 (3B, 8B, 14B) из-за их размера. Версия v2.1 671B требует серьёзного железа и практична только через API.

Доступность v2.1 через API. Modeli доступны на Together AI ($1.25 за миллион токенов), Fireworks AI, OpenRouter и других платформах. Для разработчиков, которым нужна максимальная мощность без локального железа, это предпочтительный вариант.

Что выбрать. Для локального запуска на обычном компьютере -- Cogito v1 8B или 14B (команды из этого гайда актуальны). Для облачного API с максимальной производительностью -- Cogito v2.1 671B через Together AI или Fireworks AI.

Cogito v2.1 -- локальный запуск через Unsloth (экспертная конфигурация): Для тех, кто хочет запустить v2.1 671B локально, оптимальный путь -- Unsloth Studio с поддержкой мульти-GPU. Минимальная конфигурация: несколько GPU NVIDIA A100 80GB или H100 с суммарным VRAM от 400 ГБ (для INT4-квантизации) или от 650 ГБ (для INT8). Шаги: установите Unsloth с сайта unsloth.ai; в Unsloth Studio найдите "Cogito v2.1 671B"; выберите INT4 QAT квантизацию для снижения требований к памяти; настройте tensor parallelism для распределения между GPU. Примечание: для большинства разработчиков v1 (3B-70B) остаётся практичным выбором на потребительском железе. v2.1 оправдан только при наличии мульти-GPU серверной установки или через API.

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

Поделиться:Telegram X LinkedIn

Как вам материал?

Теги:Cogito Deep Cogito локальный AI Ollama hybrid reasoning нейросети open source

Хотите получать подобные материалы раньше?

Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.

Узнать про Intelligence

Не пропускайте важное

Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.

Как начать пользоваться Agno: Python-фреймворк для создания AI-агентов

Agno (бывший phidata) - один из самых популярных Python-фреймворков для построения AI-агентов с 39k+ звезд на GitHub. Пошаговый гайд: установка, первый агент за 5 минут, мультиагентные команды и деплой в продакшн.

2026-07-14·8 мин

С чего начать·Гайд

Seedance 2.5: как начать пользоваться генератором видео от ByteDance

Seedance 2.5 от ByteDance генерирует нативное 30-секундное видео в один проход, принимает до 50 мультимодальных референсов и позволяет редактировать отдельные фрагменты без перегенерации всего клипа.

2026-07-13·7 мин

С чего начать·Гайд

ChatGPT Work: как начать пользоваться агентным рабочим столом OpenAI

9 июля 2026 OpenAI запустила ChatGPT Work -- агента, который берёт у вас целый проект, сам планирует шаги, работает часами в фоне и возвращает готовый документ, таблицу или презентацию.

2026-07-13·8 мин