Модели рассуждений: o3 vs DeepSeek R1 vs Claude Thinking
Reasoning-модели — главный тренд 2025–2026. Разбираемся, как o3, R1 и Claude Thinking подходят к рассуждениям по-разному.
Тип материала: Анализ
- — o3 показывает 93% на AIME — уровень олимпиадной математики
- — DeepSeek R1 — открытая reasoning-модель, в 20–30 раз дешевле o3
- — Claude extended thinking интегрирует рассуждения в общую модель
- — Каждый подход превосходит в своей нише задач
## Что такое reasoning-модели
Обычные языковые модели генерируют ответ последовательно, токен за токеном, без «остановки на подумать». Reasoning-модели принципиально отличаются: они выделяют отдельный этап для внутренних рассуждений перед формированием ответа. Модель буквально думает — строит цепочки логических шагов, проверяет гипотезы, отбрасывает ошибочные пути.
Этот подход оказался прорывным для задач, требующих многошагового мышления: математика, программирование, научные рассуждения, планирование. В 2025–2026 годах три подхода к reasoning доминируют: o3 от OpenAI, DeepSeek R1 и Claude с extended thinking от Anthropic.
## o3: олимпиадная математика и не только
OpenAI o3 — прямой наследник o1 и o2, модель, оптимизированная для глубоких рассуждений. 93% на AIME (American Invitational Mathematics Examination) — это уровень, который ставит модель в топ-5% участников олимпиад по математике. Для контекста: средний результат студентов MIT на этом экзамене — около 60%.
o3 думает долго — иногда минуты на сложный вопрос. Но качество этих рассуждений впечатляет. Модель разбивает задачу на подзадачи, проверяет промежуточные результаты, возвращается и пробует другой подход, если текущий не работает. Это не имитация мышления — это структурированный поиск решения.
Цена соответствует: o3 через API стоит от $10 до $40 за миллион токенов на выход (с учётом reasoning-токенов). Для задач, где качество рассуждений критично — это оправданная инвестиция. Для массовых задач — запредельно дорого.
## DeepSeek R1: рассуждения для всех
DeepSeek R1 — первая открытая reasoning-модель. Полностью открытые веса, возможность запуска на своём железе. И при этом — качество, конкурентоспособное с o3 на ряде бенчмарков. R1 показывает впечатляющие результаты на математических и кодинг-задачах, уступая o3 в среднем на 5–10%.
Главное преимущество R1 — цена. Через API DeepSeek модель стоит в 20–30 раз дешевле o3. А через Ollama или vLLM её можно запустить вообще бесплатно (после покупки GPU). Мы запускаем DeepSeek R1 32B на нашем Mac Mini и используем для задач, где нужны рассуждения, но не нужна максимальная точность.
R1 также интересна с исследовательской точки зрения. Открытый технический отчёт DeepSeek описывает, как модель обучалась рассуждать, и это позволяет понять механизмы reasoning на глубоком уровне. Для AI-сообщества это не менее ценно, чем сама модель.
## Claude extended thinking: рассуждения как часть целого
Anthropic пошла третьим путём. Вместо отдельной reasoning-модели они интегрировали расширенное мышление в основную модель Claude. Когда задача требует рассуждений — Claude думает. Когда нет — отвечает сразу. Пользователь может видеть цепочку рассуждений (thinking tokens) или только финальный ответ.
Преимущество этого подхода — универсальность. Вам не нужно решать, какую модель использовать (обычную или reasoning). Claude сам определяет, нужно ли думать глубже. На практике это означает меньше инженерной работы: один API, одна модель, автоматическая адаптация к сложности задачи.
На бенчмарках Claude extended thinking показывает результаты, сопоставимые с o3 на задачах программирования (SWE-bench) и несколько уступает на чистой математике. Но в реальных задачах, где рассуждения переплетаются с генерацией текста, пониманием контекста и работой с инструментами — этот интегрированный подход часто выигрывает.
## Где каждая модель сильнее
o3 лучше всего справляется с задачами, где нужна чистая логика: математические доказательства, формальная верификация, олимпиадные задачи. R1 оптимален для задач, где нужен баланс качества и стоимости: отладка кода, анализ данных, научные рассуждения средней сложности. Claude extended thinking — для задач, где рассуждения — часть более широкого контекста: планирование проектов, архитектурные решения, сложный рефакторинг.
Мы видим это в работе наших агентов. ODIN на Claude Opus 4.6 с extended thinking принимает стратегические решения, которые требуют одновременно глубоких рассуждений и понимания контекста проекта. Для чистых вычислительных задач мы бы выбрали o3. Для массовой отладки — R1.
## Скрытый токен: стоимость думания
Reasoning-модели генерируют «скрытые» токены — цепочку рассуждений, которая не всегда видна пользователю, но за которую вы платите. o3 может генерировать тысячи reasoning-токенов на один ответ. Это значит, что реальная стоимость запроса может быть в 5–10 раз выше, чем кажется по длине ответа.
При оценке стоимости reasoning-моделей важно смотреть не на цену за токен, а на стоимость решения задачи. o3 может решить задачу за один запрос, на который обычная модель потратит 5–10 итераций. В итоге reasoning-модель может оказаться дешевле, несмотря на более высокую цену за токен.
## Будущее reasoning
Reasoning-модели — не временный тренд. Это фундаментальный сдвиг в архитектуре AI. Способность «думать перед ответом» открывает класс задач, которые были недоступны обычным языковым моделям. Мы ожидаем, что в ближайшие годы все крупные модели будут иметь встроенные reasoning-возможности.
Конкуренция между o3, R1 и Claude extended thinking — это конкуренция между тремя подходами к одной идее. OpenAI делает ставку на специализированную reasoning-модель. DeepSeek — на открытость и доступность. Anthropic — на интеграцию рассуждений в универсальную модель. Рынок определит, какой подход победит — или, что вероятнее, все три найдут свои ниши.
Какие задачи в вашей работе требуют от AI настоящих рассуждений — и пробовали ли вы reasoning-модели для их решения?
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceClaude Opus 4.6: миллион токенов контекста и что это меняет на практике
Anthropic выпустила Claude Opus 4.6 с контекстным окном в 1 миллион токенов. Разбираемся, почему длинный контекст — это не просто маркетинговая цифра, а фундаментальный сдвиг в возможностях AI.
Google Gemini 3 Pro: что нового и почему Google снова в гонке
Google представила Gemini 3 Pro — мультимодальную модель нового поколения. Разбираемся в технических деталях и в том, как это меняет позиции Google в AI-гонке.
Claude Opus 4.5: тихий релиз модели, которая изменила стандарты
Anthropic выпустила Claude Opus 4.5 — модель, которая задала новую планку качества для текстовых задач и кода. Что внутри и почему это важно.