AI inference vs training: экономика вычислений меняется
Расходы на inference впервые превысили расходы на training. Что это значит для архитектуры чипов, дата-центров и экономики AI.
Тип материала: Анализ
В 2026 году произошел переломный момент в экономике AI-вычислений: расходы на inference (выполнение обученных моделей) впервые превысили расходы на training (обучение моделей). По оценкам Morgan Stanley, соотношение inference/training в совокупных расходах на AI-вычисления достигло 60/40 в первом квартале 2026 года, по сравнению с 40/60 двумя годами ранее. Этот сдвиг имеет фундаментальные последствия для всей индустрии.
Причины сдвига понятны. Обучение модели, пусть и дорогое, происходит один раз или несколько раз. Inference происходит миллиарды раз в день каждый раз, когда пользователь обращается к ChatGPT, когда рекомендательная система подбирает контент, когда автопилот анализирует дорожную ситуацию. С ростом числа AI-приложений и пользователей объем inference растет экспоненциально, в то время как training растет линейно с увеличением размера моделей.
Архитектурные требования к inference и training существенно различаются. Training требует максимальной вычислительной мощности и пропускной способности памяти для обработки огромных массивов данных. Inference требует низкой задержки, энергоэффективности и предсказуемой производительности. GPU, оптимизированные для training (как NVIDIA H100), не являются идеальным решением для inference, где большая часть вычислительных ресурсов простаивает.
NVIDIA осознает этот сдвиг и адаптирует свою линейку продуктов. Платформа Blackwell включает чипы, оптимизированные для inference-задач, с улучшенной поддержкой операций низкой точности (INT4, FP4) и уменьшенным энергопотреблением на запрос. Однако NVIDIA по-прежнему продвигает универсальные GPU, способные выполнять обе задачи, что не всегда оптимально для чисто inference-нагрузок.
Именно в inference-сегменте альтернативные чипы имеют наибольшие шансы на успех. Google TPU, Amazon Trainium, Microsoft Maia, десятки стартапов с ASIC-чипами: все они целятся в inference как в рынок, где зависимость от экосистемы CUDA ниже, а возможности для оптимизации шире. Специализированный inference-чип может быть в 5-10 раз энергоэффективнее универсального GPU при выполнении конкретной модели.
Экономика inference на уровне отдельного запроса определяет жизнеспособность AI-продуктов. Если стоимость одного ответа ChatGPT составляет 0.5-3 цента (по оценкам аналитиков), то при миллиардах запросов в день это сотни миллионов долларов ежемесячно. Снижение стоимости inference на 50% может быть разницей между прибыльным и убыточным AI-сервисом. Это объясняет, почему компании так агрессивно инвестируют в оптимизацию inference.
Алгоритмические оптимизации играют не меньшую роль, чем аппаратные. Техники квантизации позволяют сжимать модели в 4-8 раз с минимальной потерей качества. Speculative decoding ускоряет генерацию текста на 30-50%. Кэширование промежуточных результатов (KV-cache) снижает объем вычислений для повторяющихся запросов. Компании, комбинирующие аппаратную и алгоритмическую оптимизацию, достигают снижения стоимости inference в 10 раз за два года.
Географическое распределение inference-инфраструктуры отличается от training. Обучение моделей может происходить в любом месте с достаточными вычислительными мощностями. Inference должен быть близко к пользователям для минимизации задержки. Это стимулирует строительство edge-дата-центров и размещение inference-серверов в точках обмена трафиком по всему миру. CDN-провайдеры, такие как Cloudflare и Akamai, начинают предлагать AI-inference как сервис.
Для стартапов сдвиг к inference создает окно возможностей. Разработка чипов для training требует масштаба и ресурсов, доступных единицам. Inference-чипы, более специализированные и менее ресурсоемкие в разработке, позволяют небольшим компаниям конкурировать. Groq с архитектурой LPU, Cerebras с системой на уровне пластины, SambaNova с потоковой архитектурой, каждый предлагает уникальный подход к ускорению inference.
Вывод: доминирование inference в экономике AI-вычислений, это не временный тренд, а структурный сдвиг. По мере того как AI проникает в повседневную жизнь миллиардов людей, объем inference-запросов будет расти на порядки. Компании, которые смогут обеспечить самый дешевый и энергоэффективный inference, получат решающее конкурентное преимущество. NVIDIA по-прежнему лидирует, но именно в inference-сегменте конкурентный ландшафт наиболее динамичен и открыт для новых игроков.
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceПентагон ответил Anthropic: что стоит за судебным спором об AI в оборонке
Министерство обороны США подало встречный ответ на иск Anthropic. Этот конфликт выходит далеко за рамки одного контракта и задаёт тон отношениям между AI-компаниями и государством на годы вперёд.
NVIDIA Vera Rubin, космические дата-центры и скандал вокруг DLSS 5: что происходит
На GTC 2026 NVIDIA анонсировала Vera Rubin Space 1 и новое поколение GPU, а Jensen Huang публично ответил на критику DLSS 5. Разбираемся, что за этим стоит и почему геймеры злятся.
Безос собирает $100 млрд на AI-перестройку промышленности. Что это значит
Джефф Безос привлекает крупнейший в истории частный фонд, чтобы скупать и трансформировать производственные компании с помощью AI. Цели -- чипы, оборона, аэрокосмическая отрасль.