DeepSeek V4: чего ждать от следующего удара по индустрии

Слухи, утечки и обоснованные прогнозы о модели, которая может стать самой важной в 2026 году

Aravana·2026-03-20·10 мин

Слухи, утечки и обоснованные прогнозы о модели, которая может стать самой важной в 2026 году

Прошло больше года с момента, когда DeepSeek R1 отправил шоковую волну через мировую технологическую индустрию. С тех пор компания выпустила несколько обновлений — R1.5, V3, V3.5 — каждое из которых улучшало предшественника, но не производило столь же оглушительного эффекта. И вот сейчас, в марте 2026 года, ИИ-сообщество замерло в ожидании: DeepSeek V4, по многочисленным признакам, готовится к выходу. Мы собрали всё, что известно на данный момент, и постарались отделить факты от спекуляций.

Начнём с того, что мы знаем наверняка. В феврале 2026 года Лян Вэньфэн, основатель DeepSeek и основатель хедж-фонда High-Flyer Capital, выступил на закрытой конференции в Шэньчжэне. По словам присутствовавших, он упомянул «следующее поколение модели, которое переопределит границы эффективности». Конкретных дат и названий он не назвал, но контекст был очевиден. Позже несколько сотрудников DeepSeek опубликовали в социальных сетях сообщения, которые были интерпретированы как тизеры предстоящего релиза.

Ключевые компании и платформы

На Hugging Face в начале марта появился и был быстро удалён репозиторий с названием «deepseek-ai/DeepSeek-V4-Base». Скриншоты конфигурационного файла разлетелись по китайским технологическим форумам. Если верить этим данным — а мы относимся к ним с осторожностью — V4 будет иметь 800 миллиардов параметров в MoE-архитектуре с 128 экспертами и активацией 32 экспертов на каждый запрос. Это значительный скачок по сравнению с V3 (671 миллиард параметров, 64 эксперта, активация 8).

Увеличение числа активируемых экспертов с 8 до 32 — это не просто количественное изменение. Это качественный сдвиг в том, как модель обрабатывает информацию. Больше активных экспертов означает больший объём «мыслительных ресурсов» на каждый запрос, что должно улучшить качество на сложных задачах: многошаговые рассуждения, анализ длинных документов, решение математических задач. Одновременно это увеличивает стоимость инференса — но DeepSeek, вероятно, рассчитывает компенсировать это другими оптимизациями.

Что касается предполагаемых инноваций, аналитики и инсайдеры указывают на несколько направлений. Первое — расширенное окно контекста. Если V3 работала с контекстом до 128 тысяч токенов, то V4, по слухам, может обрабатывать до 1 миллиона токенов. Это радикально меняет сценарии использования: анализ целых кодовых баз, работа с книгами и длинными документами, многошаговые рассуждения на основе обширного контекста.

Миллион токенов — это приблизительно 3-4 тысячи страниц текста. Для сравнения: средний роман содержит 80-100 тысяч слов, или примерно 100 тысяч токенов. Контекст в 1 миллион токенов позволяет загрузить в модель десять романов одновременно — или всю документацию крупного программного проекта, или годовой отчёт корпорации со всеми приложениями. Это открывает сценарии, которые были невозможны ещё год назад. Технически обеспечить такой контекст крайне сложно — требуются специальные архитектурные решения для работы с длинными последовательностями, такие как sliding window attention, sparse attention или ring attention. DeepSeek, судя по их предыдущим публикациям, активно работает в этом направлении.

Стратегия субсидирования и экспансии

На наш взгляд, второе направление — мультимодальность. DeepSeek до сих пор фокусировалась преимущественно на текстовых моделях (с отдельным VL-вариантом для работы с изображениями). V4, судя по всему, будет нативно мультимодальной — текст, изображения, код, возможно аудио — в единой архитектуре. Это приведёт модель в соответствие с тем, что уже делают Qwen 3.5 и GPT-5.

Третье — и, на наш взгляд, самое интригующее — это предполагаемые улучшения в рассуждении. DeepSeek R1 уже продемонстрировала, что reinforcement learning может значительно улучшить способность модели к длинным цепочкам логических выводов. V4, по имеющимся данным, использует новую архитектуру обучения, которую внутри компании называют «Recursive Reinforcement» — итеративное применение RL, при котором модель обучается на собственных рассуждениях, корректируя и улучшая их на каждой итерации. Если это работает так, как описывается, это может стать следующим прорывом после chain-of-thought.

Идея Recursive Reinforcement не нова в академическом смысле — похожие подходы обсуждались в работах по «self-play» и «iterative refinement». Но реализация в масштабе frontier-модели — это совсем другое дело. DeepSeek, предположительно, нашла способ сделать этот процесс стабильным и масштабируемым. Ключевая проблема подобных методов — «коллапс режима» (mode collapse), когда модель начинает воспроизводить одни и те же паттерны вместо того, чтобы генерировать разнообразные рассуждения. Если DeepSeek решила эту проблему, это действительно будет значительным вкладом в область.

Стоимость обучения — традиционный козырь DeepSeek. R1 была обучена за 5.5 миллионов долларов. V3 — за 8-10 миллионов (по оценкам). V4, учитывая увеличенный масштаб, вероятно, потребует 15-25 миллионов — что всё ещё на порядок дешевле, чем стоимость обучения frontier-моделей у OpenAI или Google. Если DeepSeek снова продемонстрирует, что можно достичь уровня GPT-5 за двадцатую часть стоимости, это будет ещё один удар по нарративу «больше GPU = лучше модель».

Аппаратная база — предмет постоянных спекуляций. Официально DeepSeek не раскрывает, на каких чипах обучает свои модели. Неофициально считается, что компания использует комбинацию NVIDIA A100 (закупленных до санкций), Huawei Ascend 910B и собственных оптимизаций. Есть предположения, что V4 будет первой крупной моделью, обученной преимущественно на китайском оборудовании. Если это подтвердится, символическое значение будет огромным.

По нашей информации, DeepSeek располагает кластером из примерно 10-15 тысяч чипов — как NVIDIA A100, так и Huawei Ascend 910B. Это значительно меньше, чем у OpenAI (десятки тысяч H100) или Google (сотни тысяч TPU v5). Но инженерная культура DeepSeek заточена на максимальную утилизацию имеющихся ресурсов. Они оптимизируют всё: от расписания обучения до потоков данных между узлами кластера. Результат — эффективность использования оборудования, которая, по оценкам внешних аналитиков, на 40-60% выше, чем у большинства конкурентов.

Открытость модели — ещё один вопрос. V3 была выпущена с открытыми весами под лицензией MIT — максимально разрешительной. Это позволило десяткам тысяч разработчиков использовать модель, что создало мощный сетевой эффект и укрепило репутацию DeepSeek. Мы ожидаем, что V4 также будет открытой — это центральный элемент стратегии компании. Но существует неопределённость относительно того, будет ли открыта полная версия или только уменьшенная (distilled).

Сроки выхода — самый неопределённый аспект. Наиболее обоснованные прогнозы указывают на конец марта — апрель 2026 года. Некоторые источники упоминают поэтапный выход: сначала API для партнёров, затем открытые веса, затем специализированные версии (Coder, Math, VL). Мы не будем делать категоричных прогнозов, но отметим, что количество косвенных признаков — от активности на GitHub до публикаций сотрудников — заметно возросло в последние недели.

Есть ещё одно направление, о котором стоит упомянуть — предполагаемые улучшения в работе с кодом. DeepSeek Coder V2 уже входит в число лучших моделей для программирования. V4, если верить утечкам, будет включать специализированный «кодовый режим» с поддержкой более 100 языков программирования, интеграцией с инструментами отладки и способностью генерировать полные проекты — не отдельные функции, а работающие приложения с документацией и тестами. Если это реализовано хотя бы на 70% от описанного, это может серьёзно повлиять на рынок инструментов для разработчиков.

Сравнение с западными аналогами

Мы также обращаем внимание на потенциальное влияние V4 на китайскую интернет-индустрию. ByteDance, Meituan, Pinduoduo, JD.com — все крупные платформы используют LLM для рекомендаций, поиска, модерации контента и клиентского сервиса. Каждый раз, когда появляется более качественная и более дешёвая модель, компании переоценивают свои решения. DeepSeek V3 уже используется несколькими крупными платформами для инференса. V4, если подтвердится заявленное улучшение качества при сохранении эффективности, может стать де-факто стандартом для китайской интернет-индустрии — модель, на которой работает всё, от рекомендаций в TikTok до ответов службы поддержки.

Нельзя игнорировать и конкурентный контекст. Выход V4 совпадает по времени с ожидаемыми релизами GPT-5.5, Claude Opus 4, Gemini 3.0 и Qwen 4.0. Первая половина 2026 года может стать самым насыщенным периодом в истории ИИ-моделей — четыре-пять frontier-релизов в течение нескольких месяцев. Для пользователей это благо (больше выбора, ниже цены). Для компаний — колоссальное давление: каждый релиз конкурента обесценивает ваш предыдущий продукт. DeepSeek, благодаря низкой стоимости обучения, находится в более выгодной позиции, чем компании, потратившие сотни миллионов на каждую модель.

Влияние V4 на рынок будет зависеть от того, подтвердятся ли заявленные характеристики. Если модель действительно достигнет уровня GPT-5 при стоимости обучения в 20-25 миллионов долларов, это подтвердит тезис, который DeepSeek продвигает с момента выхода R1: эра, когда лидерство в ИИ определяется размером кластера, заканчивается. Начинается эра, когда оно определяется качеством алгоритмов, эффективностью обучения и инженерной культурой.

Мы также размышляем о том, как V4 повлияет на рынок труда в ИИ. Если лучшая модель в мире создаётся командой из 200-300 человек (именно столько, по нашим оценкам, работает в DeepSeek) при бюджете в 20-25 миллионов, то возникает вопрос: зачем OpenAI нужны 3000 сотрудников и бюджет в миллиарды? Частично ответ — в диверсификации продуктов (OpenAI строит не только модели, но и потребительские приложения, enterprise-решения, платформу для разработчиков). Но частично это может указывать на системную неэффективность, которую конкуренция со стороны DeepSeek обнажает. Мы ожидаем, что успех V4, если он подтвердится, приведёт к пересмотру структуры затрат в западных ИИ-лабораториях.

Отдельно стоит упомянуть потенциальное влияние V4 на академические исследования. Если модель с миллионным контекстом и продвинутыми способностями к рассуждению станет доступна бесплатно, это откроет новые возможности для учёных по всему миру. Анализ геномных данных, моделирование климатических систем, обработка результатов физических экспериментов — всё это задачи, для которых сильная открытая модель может стать незаменимым инструментом. DeepSeek, возможно, не осознавая это в полной мере, создаёт инфраструктуру для следующего поколения научных открытий.

Прогноз развития и глобальное влияние

Для глобальной ИИ-индустрии потенциальный выход V4 — это ещё один тест на адаптивность. Каждый раз, когда DeepSeek выпускает новую модель, западные компании вынуждены пересматривать свои планы, пересчитывать бюджеты и переосмысливать стратегии. Это не конкуренция в традиционном смысле — это смена парадигмы. И DeepSeek — один из главных архитекторов этой смены.

Нас также интересует, как V4 повлияет на DeepSeek как компанию. До сих пор DeepSeek финансировалась из прибыли хедж-фонда High-Flyer — необычная модель, которая позволяла работать без давления внешних инвесторов. Но масштаб расходов растёт: если V4 потребует 20-25 миллионов на обучение, а инференс для миллионов пользователей обойдётся ещё в десятки миллионов, даже прибыльный хедж-фонд начнёт испытывать нагрузку. Возможно, после V4 DeepSeek впервые привлечёт внешнее финансирование или начнёт более агрессивно монетизировать свои продукты. Это изменит динамику компании — и не обязательно в лучшую сторону. Часть магии DeepSeek — в свободе от давления инвесторов и квартальных отчётов.

Есть и этический аспект, который мы не можем игнорировать. Модель с миллионным контекстом и продвинутыми рассуждениями — это мощный инструмент, который может быть использован как во благо, так и во вред. Способность анализировать миллионы строк кода может помочь найти уязвимости для исправления — или для эксплуатации. Способность к сложным рассуждениям может помочь в научных открытиях — или в создании дезинформации. DeepSeek, как и все разработчики frontier-моделей, стоит перед дилеммой: чем мощнее модель, тем больше ответственность. И в контексте открытых моделей эта ответственность распределяется — на разработчиков, на пользователей, на регуляторов. Простых ответов нет, но игнорировать вопрос нельзя.

Мы также хотим подчеркнуть, что V4 — это не только технологическая история, но и культурная. DeepSeek стал символом китайской ИИ-индустрии — компания, которая показала, что можно конкурировать с лучшими в мире без доступа к лучшему оборудованию и без миллиардных бюджетов. Каждый новый релиз DeepSeek укрепляет этот нарратив и вдохновляет новое поколение китайских исследователей. В какой-то мере DeepSeek делает для китайского ИИ то, что SpaceX сделала для американской космической индустрии: показывает, что дерзкие цели достижимы, если подойти к ним с правильным сочетанием амбиций, таланта и инженерной дисциплины.

Мы также наблюдаем за тем, как ожидание V4 уже влияет на рынок. Несколько китайских облачных провайдеров снизили цены на инференс, готовясь к конкуренции с DeepSeek API. Стартапы, которые планировали обучать собственные модели, приостановили проекты — зачем тратить миллионы, если через несколько недель можно будет бесплатно использовать модель, превосходящую всё, что вы могли бы создать сами? Даже ожидание релиза DeepSeek уже трансформирует рынок. Это феномен, который мы раньше видели только в мире Apple: объявление о будущем продукте убивает продажи текущих конкурентов. DeepSeek достиг этого статуса — и это, пожалуй, самый красноречивый показатель его влияния на индустрию.

Мы хотим закончить вопросом, который кажется нам ключевым: если DeepSeek V4 действительно окажется на уровне GPT-5, но при этом будет открытой и бесплатной — как должны реагировать компании, чья бизнес-модель построена на продаже доступа к закрытым моделям через API? И не окажется ли так, что «гонка ИИ» выиграна не тем, кто создаст лучшую модель, а тем, кто сделает лучшие модели бесплатными — изменив тем самым правила игры настолько радикально, что само понятие «победы» в этой гонке потеряет смысл? DeepSeek V4, если он оправдает ожидания, может стать ответом на этот вопрос. И мир, каким бы ни был этот ответ, уже не будет прежним. Мы готовимся к этому релизу с сочетанием волнения и трезвого анализа — потому что в индустрии, где каждый крупный релиз переписывает правила, способность быстро оценить ситуацию и адаптироваться становится ключевым навыком для каждого участника рынка. DeepSeek V4 — это тест не только для самой модели, но и для всей индустрии, для наших предположений о том, как работает прогресс в ИИ, и в конечном счёте — для всех нас.

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

Тип материала: Анализ

Поделиться:Telegram X LinkedIn

Как вам материал?

Цифровой шёлковый путь: как Китай экспортирует AI-инфраструктуру в развивающиеся страны

Пока Запад спорит о регулировании, Китай тихо строит дата-центры и обучает инженеров по всей Африке и Юго-Восточной Азии. Это не благотворительность — это стратегия.

2026-03-24·2 мин

China / Asia·Аналитика

Саудовская Аравия и ОАЭ: ближневосточная гонка за AI-лидерство

Два нефтяных гиганта Персидского залива вкладывают десятки миллиардов в искусственный интеллект. Цель — превратить регион из сырьевой кладовой в технологический хаб мирового уровня.

2026-03-24·2 мин

China / Asia·Аналитика

Alibaba вложит $100 млрд в AI-облако: Китай строит собственную вычислительную инфраструктуру

На фоне санкций Alibaba, Tencent и Baidu масштабируют облачные AI-платформы. Внутренний спрос заменяет экспортный.

2026-03-22·1 мин