DeepSeek R1: как китайская модель изменила правила AI-гонки
Модель DeepSeek R1 показала, что для создания конкурентоспособного AI не нужны миллиарды долларов. Эссе о том, как один релиз перевернул представления целой индустрии.
Тип материала: Анализ
- — DeepSeek R1, выпущенная в январе 2025 года, продемонстрировала результаты на уровне GPT-4o при стоимости обучения, по заявлениям, менее $6 млн — в десятки раз дешевле аналогов.
- — Модель поставила под вопрос нарратив «больше GPU = лучше модель» и заставила инвесторов переоценить стоимость AI-инфраструктуры.
- — DeepSeek показал, что ограничения (включая санкции на поставку чипов) могут стимулировать инновации в эффективности, а не только замедлять прогресс.
В январе 2025 года китайская компания DeepSeek, которую мало кто знал за пределами узкого круга AI-исследователей, выпустила модель R1. За несколько дней она стала самым обсуждаемым событием в мире AI — не потому, что была лучшей, а потому, что сломала базовое допущение, на котором строилась вся индустрия.
Допущение звучало так: создание фронтирной AI-модели стоит сотни миллионов долларов и требует десятков тысяч лучших в мире GPU. OpenAI потратила, по оценкам, $300-500 млн на обучение GPT-4. Google — сопоставимые суммы на Gemini. Anthropic привлекла миллиарды именно потому, что «вход в клуб» стоит космических денег. И тут появляется DeepSeek R1, обученная — по заявлениям компании — примерно за $5.6 млн на кластере из 2 048 чипов Nvidia H800 (урезанная версия H100, доступная в Китае до ужесточения санкций).
Результаты R1 на бенчмарках были впечатляющими. На MATH 500 (олимпиадная математика) модель набрала около 97.3% — на уровне лучших моделей OpenAI. На AIME 2024 (американская олимпиада по математике) — 79.8%. На Codeforces (соревновательное программирование) — перцентиль выше 96%. Это не уровень GPT-5 или Claude Opus, но для модели, стоившей в 50-100 раз дешевле, результаты были шокирующими.
Как DeepSeek достигла такой эффективности? Несколько ключевых инноваций. Во-первых, архитектура Mixture of Experts (MoE): модель содержит 671 млрд параметров, но при обработке каждого запроса активируется только 37 млрд — около 5.5%. Это радикально снижает вычислительные требования при сохранении «глубины» модели. Во-вторых, Multi-head Latent Attention (MLA) — модифицированная схема внимания, которая уменьшает объём KV-кэша и ускоряет инференс. В-третьих, FP8 mixed-precision training — использование 8-битных вычислений вместо стандартных 16/32-битных, что удваивает эффективность GPU.
Но самое интересное — не техника, а контекст. DeepSeek работает в условиях жёстких ограничений. Американские санкции (с октября 2022 года, ужесточённые в 2023-м) запрещают продажу в Китай самых мощных чипов Nvidia — A100 и H100. Китайские компании вынуждены использовать урезанные версии (H800, A800) или разрабатывать собственные альтернативы. Эти ограничения, по идее, должны были замедлить китайский AI. Вместо этого они стимулировали инновации в эффективности: если у вас вдвое меньше мощности, вы учитесь использовать её вдвое эффективнее.
Реакция рынка была драматичной. 27 января 2025 года, в первый торговый день после широкого распространения новостей о DeepSeek R1, акции Nvidia упали на 17% — крупнейшее однодневное падение в истории компании по абсолютной стоимости (потеря рыночной капитализации составила около $600 млрд). Логика инвесторов: если AI-модели можно обучать дёшево, спрос на дорогие GPU может быть ниже, чем ожидалось. Акции компаний, связанных с AI-инфраструктурой, — Broadcom, ASML, AMD — тоже упали.
Впрочем, паника была преувеличена, и это стало понятно довольно быстро. Во-первых, заявленная стоимость обучения R1 ($5.6 млн) вызывает скептицизм. Эта цифра, вероятно, покрывает только финальный этап обучения (fine-tuning и reinforcement learning), а не всю цепочку, включая предобучение базовой модели DeepSeek-V3, эксперименты, data pipeline и зарплаты исследователей. Реальная полная стоимость, по оценкам, может быть в 10-20 раз выше. Во-вторых, модели масштаба GPT-5 и Claude Opus всё ещё значительно превосходят R1 в сложных задачах.
Тем не менее, DeepSeek R1 изменила нарратив. До неё доминировала идея «scaling laws» — гипотеза, что для улучшения AI достаточно увеличивать размер модели и объём данных. Больше параметров, больше GPU, больше денег — лучше результат. R1 показала, что алгоритмическая эффективность может компенсировать недостаток вычислительных ресурсов. Это не отменяет scaling laws, но дополняет их: важно не только «сколько считать», но и «как считать».
Для стартапов и небольших компаний это воодушевляющая новость. Если можно создать конкурентоспособную модель без $500 млн, барьер входа в AI снижается. Компании вроде Mistral (Франция), AI21 Labs (Израиль), Cohere (Канада) и десятки других получают надежду на то, что гонка не ограничена тремя-четырьмя гигантами с неограниченным бюджетом.
DeepSeek как компания тоже заслуживает внимания. Она основана Лян Вэньфэнем, CEO хедж-фонда High-Flyer, который вложил личные средства в AI-лабораторию. Компания базируется в Ханчжоу и, по имеющимся данным, насчитывает около 150-200 исследователей — крошечная команда по сравнению с тысячами сотрудников OpenAI или Google DeepMind. Это подчёркивает эффективность подхода: маленькая команда с правильными идеями может конкурировать с гигантами.
Модель R1 была выпущена как open-source под лицензией MIT — одна из самых свободных лицензий в мире ПО. Любой может скачать, изменить и использовать модель, включая коммерческое использование. Это контрастирует с закрытым подходом OpenAI и Anthropic. Открытость DeepSeek стимулировала волну исследований: десятки команд по всему миру начали эксперименты с архитектурой MoE и техниками обучения, описанными в техническом отчёте DeepSeek.
Геополитические последствия сложнее, чем кажется. С одной стороны, DeepSeek показал, что санкции не остановили китайский AI. С другой — сам факт того, что R1 стала возможной именно благодаря инновациям в эффективности, подтверждает: ограничения работают, просто не так, как планировалось. Они не убили китайский AI, но изменили его траекторию — в сторону эффективности вместо brute force. Ирония в том, что это может оказаться более устойчивым преимуществом в долгосрочной перспективе.
Прошёл год с момента выхода R1, и её влияние продолжает ощущаться. Модели, выпущенные в 2025-2026 годах — как открытые, так и закрытые — активно используют техники, популяризированные DeepSeek: MoE-архитектуры, low-precision training, reinforcement learning на этапе fine-tuning. DeepSeek не создала эти техники, но продемонстрировала, как их комбинация может дать результат, неожиданный для большинства экспертов.
Что в итоге важнее для прогресса AI — доступ к самым мощным чипам или умение максимально эффективно использовать то, что есть?
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceOpen source vs закрытые модели: DeepSeek меняет правила игры
Open-source модели занимают 30% всех загрузок AI. DeepSeek предлагает API в 20–50 раз дешевле конкурентов. Разбираемся, что это значит для индустрии.
Бенчмарки vs реальность: что на самом деле показывают тесты AI
SWE-bench, HumanEval, GPQA — бенчмарки определяют рейтинги моделей. Но насколько они отражают реальность? Разбираемся в проблемах AI-тестирования.
OpenAI покупает компанию Джони Айва: зачем AI-гиганту свой iPhone
OpenAI приобрела io — стартап легендарного дизайнера Apple Джони Айва — за $6.5 млрд. Это заявка на создание первого по-настоящему AI-нативного устройства.