DeepSeek R1: как китайская модель изменила правила AI-гонки

Модель DeepSeek R1 показала, что для создания конкурентоспособного AI не нужны миллиарды долларов. Эссе о том, как один релиз перевернул представления целой индустрии.

Aravana·2025-01-20·4 мин

Ключевые выводы

— DeepSeek R1, выпущенная в январе 2025 года, продемонстрировала результаты на уровне GPT-4o при стоимости обучения, по заявлениям, менее $6 млн — в десятки раз дешевле аналогов.
— Модель поставила под вопрос нарратив «больше GPU = лучше модель» и заставила инвесторов переоценить стоимость AI-инфраструктуры.
— DeepSeek показал, что ограничения (включая санкции на поставку чипов) могут стимулировать инновации в эффективности, а не только замедлять прогресс.

В январе 2025 года китайская компания DeepSeek, которую мало кто знал за пределами узкого круга AI-исследователей, выпустила модель R1. За несколько дней она стала самым обсуждаемым событием в мире AI — не потому, что была лучшей, а потому, что сломала базовое допущение, на котором строилась вся индустрия.

Допущение звучало так: создание фронтирной AI-модели стоит сотни миллионов долларов и требует десятков тысяч лучших в мире GPU. OpenAI потратила, по оценкам, $300-500 млн на обучение GPT-4. Google — сопоставимые суммы на Gemini. Anthropic привлекла миллиарды именно потому, что «вход в клуб» стоит космических денег. И тут появляется DeepSeek R1, обученная — по заявлениям компании — примерно за $5.6 млн на кластере из 2 048 чипов Nvidia H800 (урезанная версия H100, доступная в Китае до ужесточения санкций).

Как DeepSeek добилась прорыва

Результаты R1 на бенчмарках были впечатляющими. На MATH 500 (олимпиадная математика) модель набрала около 97.3% — на уровне лучших моделей OpenAI. На AIME 2024 (американская олимпиада по математике) — 79.8%. На Codeforces (соревновательное программирование) — перцентиль выше 96%. Это не уровень GPT-5 или Claude Opus, но для модели, стоившей в 50-100 раз дешевле, результаты были шокирующими.

Как DeepSeek достигла такой эффективности? Несколько ключевых инноваций. Во-первых, архитектура Mixture of Experts (MoE): модель содержит 671 млрд параметров, но при обработке каждого запроса активируется только 37 млрд — около 5.5%. Это радикально снижает вычислительные требования при сохранении «глубины» модели. Во-вторых, Multi-head Latent Attention (MLA) — модифицированная схема внимания, которая уменьшает объём KV-кэша и ускоряет инференс. В-третьих, FP8 mixed-precision training — использование 8-битных вычислений вместо стандартных 16/32-битных, что удваивает эффективность GPU.

Но самое интересное — не техника, а контекст. DeepSeek работает в условиях жёстких ограничений. Американские санкции (с октября 2022 года, ужесточённые в 2023-м) запрещают продажу в Китай самых мощных чипов Nvidia — A100 и H100. Китайские компании вынуждены использовать урезанные версии (H800, A800) или разрабатывать собственные альтернативы. Эти ограничения, по идее, должны были замедлить китайский AI. Вместо этого они стимулировали инновации в эффективности: если у вас вдвое меньше мощности, вы учитесь использовать её вдвое эффективнее.

Открытая модель против закрытых гигантов

Реакция рынка была драматичной. 27 января 2025 года, в первый торговый день после широкого распространения новостей о DeepSeek R1, акции Nvidia упали на 17% — крупнейшее однодневное падение в истории компании по абсолютной стоимости (потеря рыночной капитализации составила около $600 млрд). Логика инвесторов: если AI-модели можно обучать дёшево, спрос на дорогие GPU может быть ниже, чем ожидалось. Акции компаний, связанных с AI-инфраструктурой, — Broadcom, ASML, AMD — тоже упали.

Мы в Aravana считаем, что впрочем, паника была преувеличена, и это стало понятно довольно быстро. Во-первых, заявленная стоимость обучения R1 ($5.6 млн) вызывает скептицизм. Эта цифра, вероятно, покрывает только финальный этап обучения (fine-tuning и reinforcement learning), а не всю цепочку, включая предобучение базовой модели DeepSeek-V3, эксперименты, data pipeline и зарплаты исследователей. Реальная полная стоимость, по оценкам, может быть в 10-20 раз выше. Во-вторых, модели масштаба GPT-5 и Claude Opus всё ещё значительно превосходят R1 в сложных задачах.

Тем не менее, DeepSeek R1 изменила нарратив. До неё доминировала идея «scaling laws» — гипотеза, что для улучшения AI достаточно увеличивать размер модели и объём данных. Больше параметров, больше GPU, больше денег — лучше результат. R1 показала, что алгоритмическая эффективность может компенсировать недостаток вычислительных ресурсов. Это не отменяет scaling laws, но дополняет их: важно не только «сколько считать», но и «как считать».

Геополитика и реакция Запада

Для стартапов и небольших компаний это воодушевляющая новость. Если можно создать конкурентоспособную модель без $500 млн, барьер входа в AI снижается. Компании вроде Mistral (Франция), AI21 Labs (Израиль), Cohere (Канада) и десятки других получают надежду на то, что гонка не ограничена тремя-четырьмя гигантами с неограниченным бюджетом.

DeepSeek как компания тоже заслуживает внимания. Она основана Лян Вэньфэнем, CEO хедж-фонда High-Flyer, который вложил личные средства в AI-лабораторию. Компания базируется в Ханчжоу и, по имеющимся данным, насчитывает около 150-200 исследователей — крошечная команда по сравнению с тысячами сотрудников OpenAI или Google DeepMind. Это подчёркивает эффективность подхода: маленькая команда с правильными идеями может конкурировать с гигантами.

Модель R1 была выпущена как open-source под лицензией MIT — одна из самых свободных лицензий в мире ПО. Любой может скачать, изменить и использовать модель, включая коммерческое использование. Это контрастирует с закрытым подходом OpenAI и Anthropic. Открытость DeepSeek стимулировала волну исследований: десятки команд по всему миру начали эксперименты с архитектурой MoE и техниками обучения, описанными в техническом отчёте DeepSeek.

Что меняется в AI-индустрии

Геополитические последствия сложнее, чем кажется. С одной стороны, DeepSeek показал, что санкции не остановили китайский AI. С другой — сам факт того, что R1 стала возможной именно благодаря инновациям в эффективности, подтверждает: ограничения работают, просто не так, как планировалось. Они не убили китайский AI, но изменили его траекторию — в сторону эффективности вместо brute force. Ирония в том, что это может оказаться более устойчивым преимуществом в долгосрочной перспективе.

Прошёл год с момента выхода R1, и её влияние продолжает ощущаться. Модели, выпущенные в 2025-2026 годах — как открытые, так и закрытые — активно используют техники, популяризированные DeepSeek: MoE-архитектуры, low-precision training, reinforcement learning на этапе fine-tuning. DeepSeek не создала эти техники, но продемонстрировала, как их комбинация может дать результат, неожиданный для большинства экспертов.

Что в итоге важнее для прогресса AI — доступ к самым мощным чипам или умение максимально эффективно использовать то, что есть?

Читайте также: «GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro: кто лучший в 2026 году» — /insights/gpt-5-4-vs-claude-opus-4-6-vs-gemini-3-1-pro-kto-luchshiy-2026. «Модели рассуждений: o3 vs DeepSeek R1 vs Claude Thinking» — /insights/modeli-rassuzhdeniy-o3-vs-deepseek-r1-vs-claude-thinking

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

Тип материала: Анализ

Поделиться:Telegram X LinkedIn

Как вам материал?

Китай: четыре открытые AI-модели за 12 дней дешевле Claude в 4 раза

DeepSeek V4 Pro, Kimi K2.6, GLM-5.1, MiniMax M2.7 — паритет с западным фронтиром в кодинге при стоимости в 4 раза ниже Claude Opus 4.7.

2026-05-04·1 мин

AI·Срочное

OpenAI заблокировал GPT-5.5-Cyber — как Anthropic с Mythos, которую сам критиковал

OpenAI ограничил GPT-5.5-Cyber — повторив подход Anthropic с Mythos, который сам публично критиковал.

2026-05-04·1 мин

AI·Срочное

600 инженеров Google против Пентагона: письмо не остановит контракт

600 сотрудников Google подписали письмо против Gemini в военных сетях — повторение Project Maven, но с другим исходом.

2026-05-04·1 мин