Cogito v1: как запустить гибридную reasoning-модель на своем компьютере

Полный гайд по Cogito v1 Preview от Deep Cogito: установка через Ollama, включение режима размышления, сравнение с LLaMA и DeepSeek, запуск на обычном ноутбуке

·7 мин

Что это и для кого

Cogito v1 Preview - это семейство гибридных языковых моделей от компании Deep Cogito, которое позволяет запускать передовой AI прямо на своем компьютере без интернета и без платной подписки. Если вы уже слышали про Ollama и пробовали запускать Gemma 4 или Llama 4 Scout локально, то Cogito v1 - следующий очевидный шаг.

Что делает Cogito v1 уникальным среди локальных моделей - это гибридный режим рассуждения (hybrid reasoning). В отличие от обычных моделей, которые сразу выдают ответ, или reasoning-моделей, которые всегда думают долго, Cogito v1 позволяет переключать режим для каждого запроса: хотите быстрый ответ - получаете мгновенно, хотите развернутое рассуждение - модель сначала думает, затем отвечает. Это как иметь в одном пакете и быстрый Gemini Flash, и медленный но глубокий Gemini Pro.

Когито обучался методом Iterated Distillation and Amplification (IDA) - алгоритм, разработанный для постепенного самоулучшения модели через итеративное усиление. На практике это означает, что модель хорошо обобщает: она понимает инструкции, пишет код, решает математику и отвечает на открытые вопросы примерно одинаково хорошо, без явных слабых мест.

Cogito v1 доступен в трех размерах: 3B, 8B и 14B параметров, плюс готовятся версии 109B, 400B и 671B. Для обычного ноутбука с 8-16 ГБ оперативной памяти наиболее подходящая версия - 8B. Все размеры доступны через Ollama, что делает установку максимально простой. Модели поддерживают более 30 языков, включая русский, контекстное окно составляет 128 тысяч токенов, а лицензия позволяет коммерческое использование.

Этот гайд подойдет всем, кто хочет иметь полноценный AI-ассистент без подписок и ежемесячных платежей, кто работает с конфиденциальными данными и не может отправлять их в облако, а также разработчикам, которые хотят встроить локальную AI в свои приложения. Также Cogito v1 будет интересен тем, кто уже пользуется Ollama и хочет попробовать нечто новое помимо стандартного набора из Gemma, Llama и Mistral.

Как установить Cogito v1 через Ollama

Прежде всего нужен Ollama - бесплатный инструмент для запуска AI-моделей локально. Если у вас его еще нет, перейдите на ollama.com и скачайте установщик для вашей операционной системы. Ollama работает на macOS (Intel и Apple Silicon), Windows и Linux. Установка занимает несколько минут и не требует особых технических знаний.

После установки Ollama откройте терминал (на macOS это Terminal.app, на Windows - PowerShell или командная строка) и выполните следующую команду для скачивания Cogito v1 8B - оптимального размера для большинства компьютеров:

ollama pull cogito:8b-v1-preview

Если у вас мощный компьютер с видеокартой и более 16 ГБ видеопамяти, попробуйте версию 14B:

ollama pull cogito:14b-v1-preview-qwen-q8_0

Для слабых компьютеров или нетбуков с 8 ГБ оперативной памяти подойдет версия 3B:

ollama pull cogito:3b-v1-preview-llama-q4_K_M

Скачивание займет от нескольких минут до получаса в зависимости от размера модели и скорости интернета. Модель 8B весит примерно 5 ГБ в квантизированном формате. После завершения загрузки модель хранится локально и больше не требует интернета.

Помимо Ollama, Cogito v1 доступен через облачные API Fireworks AI и Together AI - это удобно для разработчиков, которые хотят использовать модель через привычный OpenAI-совместимый интерфейс без локальной установки.

Первый запуск: что попробовать

Запустите модель в интерактивном режиме командой:

ollama run cogito:8b-v1-preview

Вы увидите строку ввода. Напишите любой простой вопрос, например: 'Привет, кто ты?' Модель ответит на русском без дополнительных настроек - поддержка кириллицы работает из коробки.

Теперь самое интересное - попробуйте гибридный режим рассуждения. Чтобы включить think mode для конкретного запроса, добавьте в начале сообщения специальную инструкцию. Самый простой способ - написать: 'Используй расширенное рассуждение. [ваш вопрос]'. Вы увидите, как модель сначала выводит блок размышлений в угловых скобках, а затем финальный ответ. Это особенно заметно на задачах с кодом или математикой.

Попробуйте задачу на программирование: 'Напиши функцию на Python, которая находит все простые числа до N методом решета Эратосфена, и объясни каждую строку.' С включенным think mode модель сначала разберет задачу пошагово, затем напишет чистый код с комментариями.

Для работы через графический интерфейс установите Open WebUI - это бесплатная веб-оболочка для Ollama. После установки откройте localhost:3000 в браузере, выберите Cogito из списка моделей и работайте как в обычном чат-боте, только полностью локально. Open WebUI поддерживает загрузку документов, историю чатов и переключение между моделями.

Для проверки производительности попробуйте несколько типов задач подряд: написание кода, объяснение концепции, решение логической головоломки. Cogito v1 обучен быть равномерно сильным во всех областях, и на 8B версии это хорошо заметно по сравнению с Llama 3 8B того же размера.

Ключевые фишки Cogito v1

Гибридное рассуждение. Главная особенность Cogito - возможность переключать режим работы на уровне запроса, а не на уровне модели. Обычный режим дает быстрые ответы для простых задач. Think mode активирует внутренние рассуждения: модель сначала думает (этот процесс виден как блок текста), затем формирует итоговый ответ. Это принципиально отличается от, например, DeepSeek R1, который всегда работает в режиме рассуждения и не оптимален для быстрых ответов.

Обучение методом IDA. Iterated Distillation and Amplification - метод, при котором модель итеративно улучшает себя: сначала учится у более сильного учителя, затем сама становится учителем для следующей итерации. В результате Cogito v1 демонстрирует значительно лучшие результаты на стандартных бенчмарках по сравнению с базовыми моделями того же размера - в частности, на MMLU (знания), HumanEval (код) и GSM8K (математика).

Несколько размеров под разное железо. Три доступных размера позволяют выбрать оптимальный вариант. Версия 3B работает даже на MacBook Air M1 с 8 ГБ памяти, хотя качество ответов заметно скромнее. Версия 8B - золотая середина для большинства современных компьютеров. Версия 14B требует около 10-12 ГБ оперативной памяти и заметно превосходит 8B в сложных рассуждениях. Все версии оптимизированы для CPU-запуска, хотя GPU ускоряет работу в разы.

Широкая языковая поддержка. Cogito v1 обучен на более чем 30 языках, включая русский, немецкий, французский, испанский, китайский и другие. Качество ответов на русском языке сопоставимо с Qwen 2.5 и LLaMA 3 аналогичного размера - это хорошее значение для местных open-source моделей.

Большое контекстное окно. 128 тысяч токенов контекста - это примерно 96 тысяч слов или несколько сотен страниц текста. Вы можете загрузить в контекст целый роман, несколько статей или большой файл кода и задавать вопросы по всему тексту сразу. Для сравнения, ранние версии LLaMA работали с 4-8 тысячами токенов.

OpenAI-совместимый API. Ollama поднимает локальный сервер на порту 11434, совместимый со стандартом OpenAI API. Это означает, что любое приложение, написанное для работы с ChatGPT через API, можно переключить на локальный Cogito, изменив только базовый URL. Популярные инструменты вроде LangChain, LlamaIndex и большинства AI-IDE работают с Ollama без дополнительной настройки.

Качественная работа с инструкциями и форматированием. По сравнению с другими open-source моделями того же размера, Cogito v1 более точно следует сложным многошаговым инструкциям. Модель хорошо поддерживает вывод в формате JSON, Markdown и XML - это важно при написании приложений, которые парсят ответы AI. Инструктивный файн-тюнинг охватывал широкий спектр задач, что позволяет использовать Cogito в production без дополнительной настройки системного промпта.

Цены и ограничения

Cogito v1 - полностью бесплатная модель с открытой лицензией для коммерческого использования. Никаких подписок, ежемесячных платежей или лимитов запросов не существует. Единственная 'цена' - это вычислительные ресурсы вашего компьютера.

По производительности: версия 8B на MacBook Pro M2 обрабатывает около 30-50 токенов в секунду, что соответствует скорости чтения - ответ появляется плавно в реальном времени. На Windows с GPU NVIDIA скорость выше в 3-5 раз. На бюджетных ноутбуках с Intel Core i5 и 8 ГБ RAM скорость падает до 5-10 токенов в секунду - медленно, но вполне рабочо для нетребовательных задач.

Требования к оборудованию: для версии 3B нужно не менее 4 ГБ оперативной памяти, для 8B - не менее 6 ГБ (желательно 8 ГБ), для 14B - не менее 10 ГБ. Дисковое пространство: 3B занимает около 2 ГБ, 8B около 5 ГБ, 14B около 9 ГБ в квантизированном формате. Операционная система: macOS 12+, Windows 10+, Ubuntu 20.04+.

Ограничения модели: версии 3B и 8B заметно уступают облачным флагманам вроде GPT-5.5 или Claude Opus 4.6 на сложных задачах. Think mode значительно снижает скорость генерации - ждать 2-5 минут на слабом железе для одного ответа при включенном рассуждении вполне нормально. Для повседневных задач - помощь с текстом, кодом, поиск ответов на вопросы - 8B версия справляется отлично.

Облачный API через Fireworks AI и Together AI - платный, но позволяет использовать большие версии модели (109B, 400B) без локальных ресурсов. Цены на этих платформах сопоставимы с другими провайдерами: около 0.1-0.5 доллара за миллион токенов в зависимости от размера модели.

Нужен ли VPN из России

Для локальной установки через Ollama VPN не нужен вовсе. Ollama скачивается с ollama.com, а сами модели - с репозитория Ollama или с Hugging Face. Оба сайта доступны из России без ограничений. После скачивания модели работают полностью офлайн - никаких серверов xAI, OpenAI или Google они не используют.

Если вы хотите использовать облачный API Fireworks AI или Together AI, оба сервиса на момент написания доступны из России. Регистрация возможна через email, оплата принимается картами Visa и Mastercard - включая некоторые российские банки, хотя ситуация с приемом карт регулярно меняется. Проверяйте актуальные данные на форумах перед регистрацией.

Hugging Face, где хранятся веса модели для прямого скачивания, также доступен без VPN. Если вы хотите скачать модель напрямую без Ollama, команда: huggingface-cli download deepcogito/cogito-v1-preview-llama-8B. Для этого потребуется установить Python и пакет huggingface_hub.

Локальный AI - это вообще наиболее защищенный от любых ограничений вариант: когда модель уже скачана на ваш компьютер, ни блокировки сайтов, ни закрытие аккаунта, ни изменение условий использования сервиса вас не затронут. Именно это делает локальные модели особенно привлекательными для пользователей в странах с ограниченным доступом к иностранным сервисам.

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

Поделиться:TelegramXLinkedIn
Как вам материал?

Хотите получать подобные материалы раньше?

Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.

Узнать про Intelligence

Не пропускайте важное

Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.

Похожие материалы

Grok 4.3: как начать пользоваться новым флагманом xAI

Полный гайд по Grok 4.3 от xAI: регистрация, Heavy mode с 16 агентами, видеовход, генерация слайдов, цены и доступ из России

·7 мин

HiDream O1 Image: как начать пользоваться бесплатным open-source генератором картинок

HiDream O1 Image -- открытая модель с MIT-лицензией, которая умеет генерировать и редактировать изображения до 2048x2048 пикселей. Рассказываем как запустить её бесплатно.

·7 мин

Gemini Omni: как начать пользоваться новым видеогенератором от Google

Gemini Omni -- новая мультимодальная модель Google для создания и редактирования видео. Анонсирована на Google I/O 19 мая 2026 года, уже доступна бесплатно в YouTube Shorts.

·7 мин