Все Insights

DeepSeek V4: триллион параметров за копейки

1 триллион параметров, из которых активны только 32 миллиарда. $0.10–0.30 за миллион токенов. До 50 раз дешевле конкурентов. Как это возможно.

Aravana··4 мин

Тип материала: Анализ

Поделиться:TelegramXLinkedIn

Ключевые выводы

  • DeepSeek V4 — 1 триллион параметров, крупнейшая открытая модель
  • MoE-архитектура: только 32B параметров активны при каждом запросе
  • Цена API: $0.10–0.30 за миллион токенов — до 50x дешевле флагманов
  • Качество сопоставимо с GPT-5 на большинстве задач

## Триллион

Один триллион параметров. 1,000,000,000,000. Такой размер модели ещё два года назад казался фантастикой. DeepSeek V4 делает это реальностью — и при этом остаётся одной из самых дешёвых моделей на рынке. Как? Ответ — в архитектуре, которая переворачивает представление о том, как должны работать большие модели.

## MoE: триллион, но не весь

Mixture of Experts (MoE) — архитектура, при которой модель состоит из множества «экспертов» — специализированных подсетей. При каждом запросе активируется не вся модель, а лишь несколько наиболее релевантных экспертов. DeepSeek V4 имеет триллион параметров, но при каждом запросе активны только 32 миллиарда. Это 3.2% от общего размера.

Аналогия: университет с тысячей профессоров. Когда студент задаёт вопрос по физике, отвечают профессора физики — не нужно собирать весь факультет. Модель знает столько же, сколько все триллион параметров, но думает с затратами 32 миллиардов. Это элегантное решение, позволяющее сочетать широту знаний с эффективностью инференса.

## Цена: $0.10–0.30 за миллион токенов

При инференсе с 32B активных параметров вычислительные затраты сопоставимы с моделью на 32B — а не на 1T. Отсюда цена: $0.10 за миллион входных токенов и $0.30 за миллион выходных. Для сравнения: Claude Opus 4.6 — $15/$75. GPT-5.4 — $10–$40. Разница — от 30 до 50 раз.

Для бизнеса это означает: задача, которая стоила $1,000 в месяц на Claude Opus, обойдётся в $20–30 на DeepSeek V4. При сопоставимом качестве на большинстве задач. Это не оптимизация — это изменение порядка величины.

## Качество: где триллион помогает

Триллион параметров — это триллион единиц знаний. Даже если при каждом запросе используются только 32B, маршрутизатор (router) выбирает наиболее компетентных экспертов для конкретной задачи. Вопрос по биологии активирует одних экспертов, вопрос по программированию — других. Каждый эксперт специализирован и потому более точен, чем универсальная модель того же размера.

На практике V4 показывает результаты, сопоставимые с GPT-5 на большинстве бенчмарков. На задачах, требующих широты знаний — энциклопедические вопросы, мультидисциплинарный анализ — V4 может даже превосходить более компактные модели. Слабое место — задачи, требующие очень глубоких рассуждений: здесь Claude Opus и o3 по-прежнему лидируют.

## Открытые веса: запускайте у себя

DeepSeek продолжает стратегию открытости. Веса V4 доступны для скачивания. Но — и это важный «но» — запустить триллионную модель на своём железе значительно сложнее, чем модель на 70B. Полная модель требует нескольких сотен гигабайт памяти. Даже с оптимизациями (квантизация, offloading) вам понадобится серьёзный GPU-кластер.

Для большинства пользователей API — более практичный вариант. Но сам факт открытости важен: исследователи могут изучать архитектуру, компании с собственными GPU-кластерами могут развернуть модель внутри периметра, сообщество может создавать производные модели.

## Сравнение с конкурентами

Vs Claude Opus 4.6: V4 дешевле в 50 раз. Opus сильнее в кодинге (81.4% SWE-bench) и глубоких рассуждениях. Для задач, где нужна максимальная точность — Opus. Для всего остального — V4.

Vs GPT-5.4: V4 дешевле в 30–50 раз. GPT-5.4 сильнее в агентных сценариях (OSWorld). V4 сопоставим по общему качеству. Для агентных задач — GPT. Для генерации и анализа текста — V4.

Vs Gemini 3.1 Pro: Ценовое преимущество V4 меньше (5–10 раз). Gemini сильнее в мультимодальности и научных рассуждениях. V4 — в широте знаний и стоимости.

## Архитектурные инновации

DeepSeek V4 привносит несколько архитектурных инноваций помимо MoE. Multi-head Latent Attention (MLA) — оптимизация механизма внимания, снижающая потребление памяти. Auxiliary-loss-free load balancing — техника, обеспечивающая равномерную нагрузку на экспертов без дополнительных функций потерь. FP8 training — обучение в формате 8-битной плавающей точки, что вдвое снижает требования к памяти при обучении.

Эти инновации — не академические курьёзы. Каждая из них вносит конкретный вклад в снижение стоимости обучения и инференса. Вместе они создают модель, которая оптимизирована не только по качеству, но и по эффективности.

## Ограничения

V4 — не серебряная пуля. Ограничения MoE-архитектуры: маршрутизатор не всегда выбирает оптимальных экспертов, что приводит к нестабильности качества. Иногда модель блестяще решает сложную задачу, а следом проваливает простую — потому что были активированы «не те» эксперты.

Длинный контекст — ещё одна слабая сторона. При большом контексте MoE-модели могут терять когерентность, потому что разные части контекста обрабатываются разными экспертами. На контекстах до 32K токенов V4 работает стабильно. На 100K+ — могут появляться артефакты.

## Стоит ли переходить

Если вы используете GPT-4-класса модели для массовых задач (суммаризация, классификация, генерация) — переход на V4 может снизить расходы в десятки раз при сопоставимом качестве. Если вы используете флагман для сложных задач (отладка, архитектурные решения, научный анализ) — V4 пока не замена.

Лучшая стратегия — роутинг. V4 для 80% задач, флагман для 20% сложных. Средняя стоимость снизится в 10–15 раз, а качество на критических задачах не пострадает.

Какой порог снижения цены должен наступить, чтобы вы перевели свои основные AI-задачи на DeepSeek?

Хотите получать подобные материалы раньше?

Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.

Узнать про Intelligence

Похожие материалы

Claude Opus 4.6: миллион токенов контекста и что это меняет на практике

Anthropic выпустила Claude Opus 4.6 с контекстным окном в 1 миллион токенов. Разбираемся, почему длинный контекст — это не просто маркетинговая цифра, а фундаментальный сдвиг в возможностях AI.

·4 мин·Выбор редакции

Модели рассуждений: o3 vs DeepSeek R1 vs Claude Thinking

Reasoning-модели — главный тренд 2025–2026. Разбираемся, как o3, R1 и Claude Thinking подходят к рассуждениям по-разному.

·4 мин·Выбор редакции

Google Gemini 3 Pro: что нового и почему Google снова в гонке

Google представила Gemini 3 Pro — мультимодальную модель нового поколения. Разбираемся в технических деталях и в том, как это меняет позиции Google в AI-гонке.

·4 мин