DeepSeek V4: триллион параметров за копейки
1 триллион параметров, из которых активны только 32 миллиарда. $0.10–0.30 за миллион токенов. До 50 раз дешевле конкурентов. Как это возможно.
Тип материала: Анализ
- — DeepSeek V4 — 1 триллион параметров, крупнейшая открытая модель
- — MoE-архитектура: только 32B параметров активны при каждом запросе
- — Цена API: $0.10–0.30 за миллион токенов — до 50x дешевле флагманов
- — Качество сопоставимо с GPT-5 на большинстве задач
## Триллион
Один триллион параметров. 1,000,000,000,000. Такой размер модели ещё два года назад казался фантастикой. DeepSeek V4 делает это реальностью — и при этом остаётся одной из самых дешёвых моделей на рынке. Как? Ответ — в архитектуре, которая переворачивает представление о том, как должны работать большие модели.
## MoE: триллион, но не весь
Mixture of Experts (MoE) — архитектура, при которой модель состоит из множества «экспертов» — специализированных подсетей. При каждом запросе активируется не вся модель, а лишь несколько наиболее релевантных экспертов. DeepSeek V4 имеет триллион параметров, но при каждом запросе активны только 32 миллиарда. Это 3.2% от общего размера.
Аналогия: университет с тысячей профессоров. Когда студент задаёт вопрос по физике, отвечают профессора физики — не нужно собирать весь факультет. Модель знает столько же, сколько все триллион параметров, но думает с затратами 32 миллиардов. Это элегантное решение, позволяющее сочетать широту знаний с эффективностью инференса.
## Цена: $0.10–0.30 за миллион токенов
При инференсе с 32B активных параметров вычислительные затраты сопоставимы с моделью на 32B — а не на 1T. Отсюда цена: $0.10 за миллион входных токенов и $0.30 за миллион выходных. Для сравнения: Claude Opus 4.6 — $15/$75. GPT-5.4 — $10–$40. Разница — от 30 до 50 раз.
Для бизнеса это означает: задача, которая стоила $1,000 в месяц на Claude Opus, обойдётся в $20–30 на DeepSeek V4. При сопоставимом качестве на большинстве задач. Это не оптимизация — это изменение порядка величины.
## Качество: где триллион помогает
Триллион параметров — это триллион единиц знаний. Даже если при каждом запросе используются только 32B, маршрутизатор (router) выбирает наиболее компетентных экспертов для конкретной задачи. Вопрос по биологии активирует одних экспертов, вопрос по программированию — других. Каждый эксперт специализирован и потому более точен, чем универсальная модель того же размера.
На практике V4 показывает результаты, сопоставимые с GPT-5 на большинстве бенчмарков. На задачах, требующих широты знаний — энциклопедические вопросы, мультидисциплинарный анализ — V4 может даже превосходить более компактные модели. Слабое место — задачи, требующие очень глубоких рассуждений: здесь Claude Opus и o3 по-прежнему лидируют.
## Открытые веса: запускайте у себя
DeepSeek продолжает стратегию открытости. Веса V4 доступны для скачивания. Но — и это важный «но» — запустить триллионную модель на своём железе значительно сложнее, чем модель на 70B. Полная модель требует нескольких сотен гигабайт памяти. Даже с оптимизациями (квантизация, offloading) вам понадобится серьёзный GPU-кластер.
Для большинства пользователей API — более практичный вариант. Но сам факт открытости важен: исследователи могут изучать архитектуру, компании с собственными GPU-кластерами могут развернуть модель внутри периметра, сообщество может создавать производные модели.
## Сравнение с конкурентами
Vs Claude Opus 4.6: V4 дешевле в 50 раз. Opus сильнее в кодинге (81.4% SWE-bench) и глубоких рассуждениях. Для задач, где нужна максимальная точность — Opus. Для всего остального — V4.
Vs GPT-5.4: V4 дешевле в 30–50 раз. GPT-5.4 сильнее в агентных сценариях (OSWorld). V4 сопоставим по общему качеству. Для агентных задач — GPT. Для генерации и анализа текста — V4.
Vs Gemini 3.1 Pro: Ценовое преимущество V4 меньше (5–10 раз). Gemini сильнее в мультимодальности и научных рассуждениях. V4 — в широте знаний и стоимости.
## Архитектурные инновации
DeepSeek V4 привносит несколько архитектурных инноваций помимо MoE. Multi-head Latent Attention (MLA) — оптимизация механизма внимания, снижающая потребление памяти. Auxiliary-loss-free load balancing — техника, обеспечивающая равномерную нагрузку на экспертов без дополнительных функций потерь. FP8 training — обучение в формате 8-битной плавающей точки, что вдвое снижает требования к памяти при обучении.
Эти инновации — не академические курьёзы. Каждая из них вносит конкретный вклад в снижение стоимости обучения и инференса. Вместе они создают модель, которая оптимизирована не только по качеству, но и по эффективности.
## Ограничения
V4 — не серебряная пуля. Ограничения MoE-архитектуры: маршрутизатор не всегда выбирает оптимальных экспертов, что приводит к нестабильности качества. Иногда модель блестяще решает сложную задачу, а следом проваливает простую — потому что были активированы «не те» эксперты.
Длинный контекст — ещё одна слабая сторона. При большом контексте MoE-модели могут терять когерентность, потому что разные части контекста обрабатываются разными экспертами. На контекстах до 32K токенов V4 работает стабильно. На 100K+ — могут появляться артефакты.
## Стоит ли переходить
Если вы используете GPT-4-класса модели для массовых задач (суммаризация, классификация, генерация) — переход на V4 может снизить расходы в десятки раз при сопоставимом качестве. Если вы используете флагман для сложных задач (отладка, архитектурные решения, научный анализ) — V4 пока не замена.
Лучшая стратегия — роутинг. V4 для 80% задач, флагман для 20% сложных. Средняя стоимость снизится в 10–15 раз, а качество на критических задачах не пострадает.
Какой порог снижения цены должен наступить, чтобы вы перевели свои основные AI-задачи на DeepSeek?
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceClaude Opus 4.6: миллион токенов контекста и что это меняет на практике
Anthropic выпустила Claude Opus 4.6 с контекстным окном в 1 миллион токенов. Разбираемся, почему длинный контекст — это не просто маркетинговая цифра, а фундаментальный сдвиг в возможностях AI.
Модели рассуждений: o3 vs DeepSeek R1 vs Claude Thinking
Reasoning-модели — главный тренд 2025–2026. Разбираемся, как o3, R1 и Claude Thinking подходят к рассуждениям по-разному.
Google Gemini 3 Pro: что нового и почему Google снова в гонке
Google представила Gemini 3 Pro — мультимодальную модель нового поколения. Разбираемся в технических деталях и в том, как это меняет позиции Google в AI-гонке.