DeepSeek V4: триллион параметров за копейки

1 триллион параметров, из которых активны только 32 миллиарда. $0.10–0.30 за миллион токенов. До 50 раз дешевле конкурентов. Как это возможно.

Aravana·2026-03-20·4 мин

Ключевые выводы

— DeepSeek V4 — 1 триллион параметров, крупнейшая открытая модель
— MoE-архитектура: только 32B параметров активны при каждом запросе
— Цена API: $0.10–0.30 за миллион токенов — до 50x дешевле флагманов
— Качество сопоставимо с GPT-5 на большинстве задач

Триллион

Один триллион параметров. 1,000,000,000,000. Такой размер модели ещё два года назад казался фантастикой. DeepSeek V4 делает это реальностью — и при этом остаётся одной из самых дешёвых моделей на рынке. Как? Ответ — в архитектуре, которая переворачивает представление о том, как должны работать большие модели.

MoE: триллион, но не весь

Mixture of Experts (MoE) — архитектура, при которой модель состоит из множества «экспертов» — специализированных подсетей. При каждом запросе активируется не вся модель, а лишь несколько наиболее релевантных экспертов. DeepSeek V4 имеет триллион параметров, но при каждом запросе активны только 32 миллиарда. Это 3.2% от общего размера.

Аналогия: университет с тысячей профессоров. Когда студент задаёт вопрос по физике, отвечают профессора физики — не нужно собирать весь факультет. Модель знает столько же, сколько все триллион параметров, но думает с затратами 32 миллиардов. Это элегантное решение, позволяющее сочетать широту знаний с эффективностью инференса.

Цена: $0.10–0.30 за миллион токенов

При инференсе с 32B активных параметров вычислительные затраты сопоставимы с моделью на 32B — а не на 1T. Отсюда цена: $0.10 за миллион входных токенов и $0.30 за миллион выходных. Для сравнения: Claude Opus 4.6 — $15/$75. GPT-5.4 — $10–$40. Разница — от 30 до 50 раз.

Для бизнеса это означает: задача, которая стоила $1,000 в месяц на Claude Opus, обойдётся в $20–30 на DeepSeek V4. При сопоставимом качестве на большинстве задач. Это не оптимизация — это изменение порядка величины.

Качество: где триллион помогает

Триллион параметров — это триллион единиц знаний. Даже если при каждом запросе используются только 32B, маршрутизатор (router) выбирает наиболее компетентных экспертов для конкретной задачи. Вопрос по биологии активирует одних экспертов, вопрос по программированию — других. Каждый эксперт специализирован и потому более точен, чем универсальная модель того же размера.

На практике V4 показывает результаты, сопоставимые с GPT-5 на большинстве бенчмарков. На задачах, требующих широты знаний — энциклопедические вопросы, мультидисциплинарный анализ — V4 может даже превосходить более компактные модели. Слабое место — задачи, требующие очень глубоких рассуждений: здесь Claude Opus и o3 по-прежнему лидируют.

Открытые веса: запускайте у себя

DeepSeek продолжает стратегию открытости. Веса V4 доступны для скачивания. Но — и это важный «но» — запустить триллионную модель на своём железе значительно сложнее, чем модель на 70B. Полная модель требует нескольких сотен гигабайт памяти. Даже с оптимизациями (квантизация, offloading) вам понадобится серьёзный GPU-кластер.

Для большинства пользователей API — более практичный вариант. Но сам факт открытости важен: исследователи могут изучать архитектуру, компании с собственными GPU-кластерами могут развернуть модель внутри периметра, сообщество может создавать производные модели.

Сравнение с конкурентами

Vs Claude Opus 4.6: V4 дешевле в 50 раз. Opus сильнее в кодинге (81.4% SWE-bench) и глубоких рассуждениях. Для задач, где нужна максимальная точность — Opus. Для всего остального — V4.

Vs GPT-5.4: V4 дешевле в 30–50 раз. GPT-5.4 сильнее в агентных сценариях (OSWorld). V4 сопоставим по общему качеству. Для агентных задач — GPT. Для генерации и анализа текста — V4.

Vs Gemini 3.1 Pro: Ценовое преимущество V4 меньше (5–10 раз). Gemini сильнее в мультимодальности и научных рассуждениях. V4 — в широте знаний и стоимости.

Архитектурные инновации

DeepSeek V4 привносит несколько архитектурных инноваций помимо MoE. Multi-head Latent Attention (MLA) — оптимизация механизма внимания, снижающая потребление памяти. Auxiliary-loss-free load balancing — техника, обеспечивающая равномерную нагрузку на экспертов без дополнительных функций потерь. FP8 training — обучение в формате 8-битной плавающей точки, что вдвое снижает требования к памяти при обучении.

Эти инновации — не академические курьёзы. Каждая из них вносит конкретный вклад в снижение стоимости обучения и инференса. Вместе они создают модель, которая оптимизирована не только по качеству, но и по эффективности.

Ограничения

V4 — не серебряная пуля. Ограничения MoE-архитектуры: маршрутизатор не всегда выбирает оптимальных экспертов, что приводит к нестабильности качества. Иногда модель блестяще решает сложную задачу, а следом проваливает простую — потому что были активированы «не те» эксперты.

Длинный контекст — ещё одна слабая сторона. При большом контексте MoE-модели могут терять когерентность, потому что разные части контекста обрабатываются разными экспертами. На контекстах до 32K токенов V4 работает стабильно. На 100K+ — могут появляться артефакты.

Стоит ли переходить

Если вы используете GPT-4-класса модели для массовых задач (суммаризация, классификация, генерация) — переход на V4 может снизить расходы в десятки раз при сопоставимом качестве. Если вы используете флагман для сложных задач (отладка, архитектурные решения, научный анализ) — V4 пока не замена.

Лучшая стратегия — роутинг. V4 для 80% задач, флагман для 20% сложных. Средняя стоимость снизится в 10–15 раз, а качество на критических задачах не пострадает.

Какой порог снижения цены должен наступить, чтобы вы перевели свои основные AI-задачи на DeepSeek?

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

Тип материала: Анализ

Поделиться:Telegram X LinkedIn

Как вам материал?

Китай: четыре открытые AI-модели за 12 дней дешевле Claude в 4 раза

DeepSeek V4 Pro, Kimi K2.6, GLM-5.1, MiniMax M2.7 — паритет с западным фронтиром в кодинге при стоимости в 4 раза ниже Claude Opus 4.7.

2026-05-04·1 мин

AI·Срочное

OpenAI заблокировал GPT-5.5-Cyber — как Anthropic с Mythos, которую сам критиковал

OpenAI ограничил GPT-5.5-Cyber — повторив подход Anthropic с Mythos, который сам публично критиковал.

2026-05-04·1 мин

AI·Срочное

600 инженеров Google против Пентагона: письмо не остановит контракт

600 сотрудников Google подписали письмо против Gemini в военных сетях — повторение Project Maven, но с другим исходом.

2026-05-04·1 мин