Модели рассуждений: o3 vs DeepSeek R1 vs Claude Thinking

Reasoning-модели — главный тренд 2025–2026. Разбираемся, как o3, R1 и Claude Thinking подходят к рассуждениям по-разному.

Aravana·2026-03-20·4 мин

Ключевые выводы

— o3 показывает 93% на AIME — уровень олимпиадной математики
— DeepSeek R1 — открытая reasoning-модель, в 20–30 раз дешевле o3
— Claude extended thinking интегрирует рассуждения в общую модель
— Каждый подход превосходит в своей нише задач

Что такое reasoning-модели

Обычные языковые модели генерируют ответ последовательно, токен за токеном, без «остановки на подумать». Reasoning-модели принципиально отличаются: они выделяют отдельный этап для внутренних рассуждений перед формированием ответа. Модель буквально думает — строит цепочки логических шагов, проверяет гипотезы, отбрасывает ошибочные пути.

Этот подход оказался прорывным для задач, требующих многошагового мышления: математика, программирование, научные рассуждения, планирование. В 2025–2026 годах три подхода к reasoning доминируют: o3 от OpenAI, DeepSeek R1 и Claude с extended thinking от Anthropic.

o3: олимпиадная математика и не только

OpenAI o3 — прямой наследник o1 и o2, модель, оптимизированная для глубоких рассуждений. 93% на AIME (American Invitational Mathematics Examination) — это уровень, который ставит модель в топ-5% участников олимпиад по математике. Для контекста: средний результат студентов MIT на этом экзамене — около 60%.

o3 думает долго — иногда минуты на сложный вопрос. Но качество этих рассуждений впечатляет. Модель разбивает задачу на подзадачи, проверяет промежуточные результаты, возвращается и пробует другой подход, если текущий не работает. Это не имитация мышления — это структурированный поиск решения.

Цена соответствует: o3 через API стоит от $10 до $40 за миллион токенов на выход (с учётом reasoning-токенов). Для задач, где качество рассуждений критично — это оправданная инвестиция. Для массовых задач — запредельно дорого.

DeepSeek R1: рассуждения для всех

DeepSeek R1 — первая открытая reasoning-модель. Полностью открытые веса, возможность запуска на своём железе. И при этом — качество, конкурентоспособное с o3 на ряде бенчмарков. R1 показывает впечатляющие результаты на математических и кодинг-задачах, уступая o3 в среднем на 5–10%.

Главное преимущество R1 — цена. Через API DeepSeek модель стоит в 20–30 раз дешевле o3. А через Ollama или vLLM её можно запустить вообще бесплатно (после покупки GPU). Мы запускаем DeepSeek R1 32B на нашем Mac Mini и используем для задач, где нужны рассуждения, но не нужна максимальная точность.

R1 также интересна с исследовательской точки зрения. Открытый технический отчёт DeepSeek описывает, как модель обучалась рассуждать, и это позволяет понять механизмы reasoning на глубоком уровне. Для AI-сообщества это не менее ценно, чем сама модель.

Claude extended thinking: рассуждения как часть целого

Anthropic пошла третьим путём. Вместо отдельной reasoning-модели они интегрировали расширенное мышление в основную модель Claude. Когда задача требует рассуждений — Claude думает. Когда нет — отвечает сразу. Пользователь может видеть цепочку рассуждений (thinking tokens) или только финальный ответ.

Преимущество этого подхода — универсальность. Вам не нужно решать, какую модель использовать (обычную или reasoning). Claude сам определяет, нужно ли думать глубже. На практике это означает меньше инженерной работы: один API, одна модель, автоматическая адаптация к сложности задачи.

На бенчмарках Claude extended thinking показывает результаты, сопоставимые с o3 на задачах программирования (SWE-bench) и несколько уступает на чистой математике. Но в реальных задачах, где рассуждения переплетаются с генерацией текста, пониманием контекста и работой с инструментами — этот интегрированный подход часто выигрывает.

Где каждая модель сильнее

o3 лучше всего справляется с задачами, где нужна чистая логика: математические доказательства, формальная верификация, олимпиадные задачи. R1 оптимален для задач, где нужен баланс качества и стоимости: отладка кода, анализ данных, научные рассуждения средней сложности. Claude extended thinking — для задач, где рассуждения — часть более широкого контекста: планирование проектов, архитектурные решения, сложный рефакторинг.

Мы видим это в работе наших агентов. ODIN на Claude Opus 4.6 с extended thinking принимает стратегические решения, которые требуют одновременно глубоких рассуждений и понимания контекста проекта. Для чистых вычислительных задач мы бы выбрали o3. Для массовой отладки — R1.

Скрытый токен: стоимость думания

Reasoning-модели генерируют «скрытые» токены — цепочку рассуждений, которая не всегда видна пользователю, но за которую вы платите. o3 может генерировать тысячи reasoning-токенов на один ответ. Это значит, что реальная стоимость запроса может быть в 5–10 раз выше, чем кажется по длине ответа.

При оценке стоимости reasoning-моделей важно смотреть не на цену за токен, а на стоимость решения задачи. o3 может решить задачу за один запрос, на который обычная модель потратит 5–10 итераций. В итоге reasoning-модель может оказаться дешевле, несмотря на более высокую цену за токен.

Будущее reasoning

Reasoning-модели — не временный тренд. Это фундаментальный сдвиг в архитектуре AI. Способность «думать перед ответом» открывает класс задач, которые были недоступны обычным языковым моделям. Мы ожидаем, что в ближайшие годы все крупные модели будут иметь встроенные reasoning-возможности.

Конкуренция между o3, R1 и Claude extended thinking — это конкуренция между тремя подходами к одной идее. OpenAI делает ставку на специализированную reasoning-модель. DeepSeek — на открытость и доступность. Anthropic — на интеграцию рассуждений в универсальную модель. Рынок определит, какой подход победит — или, что вероятнее, все три найдут свои ниши.

Какие задачи в вашей работе требуют от AI настоящих рассуждений — и пробовали ли вы reasoning-модели для их решения?

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

Тип материала: Анализ

Поделиться:Telegram X LinkedIn

Как вам материал?

Daily Digest - 1 августа 2026

Google убрала ИИ-снимки спутника за 48 часов, агенты OpenAI и Anthropic сами взломали чужие серверы, а указ Трампа об ИИ-безопасности истёк без единого правила - контроль везде опаздывает на шаг.

2026-08-01·6 мин

AI·Ежедневный обзор

Daily Digest - 31 июля 2026

ИИ-инвесторы больше не покупают обещания: платят только тем, у кого капзатраты уже стали строкой в выручке.

2026-07-31·8 мин

AI·Ежедневный обзор

Daily Digest - 29 июля 2026

Nvidia ручается за долги покупателей, Meta отдала стройку фонду, регулятор закрыл рынок роботов, а инженеры просят притормозить их же отрасль - риск нигде не исчез, он поменял владельца.

2026-07-29·6 мин