Синтетические данные: когда AI обучается на AI

Всё больше AI-моделей обучаются на данных, сгенерированных другими AI. Это решает проблему нехватки данных, но создает новые риски. Разбираемся в феномене synthetic data.

Aravana··2 мин

К 2026 году синтетические данные стали неотъемлемой частью обучения AI-моделей. По оценкам Gartner, 60% данных для обучения AI к 2027 году будут синтетическими -- то есть сгенерированными другими AI-системами, а не собранными из реального мира. Это фундаментальный сдвиг, который меняет экономику и качество AI.

Причина проста: реальные данные заканчиваются. По расчетам Epoch AI, весь доступный качественный текст в интернете -- около 15 триллионов токенов -- уже использован для обучения текущего поколения моделей. Новые данные появляются медленнее, чем растет аппетит моделей. Синтетические данные -- выход из этого тупика.

NVIDIA и генерация данных

NVIDIA стала одним из лидеров в этой области. Их платформа Nemotron генерирует синтетические данные для обучения специализированных моделей: от медицинских диагнозов до автономного вождения. Google использует Gemini для генерации обучающих данных для более мелких моделей -- процесс, известный как дистилляция. Anthropic публично описывала использование Constitutional AI, где модель фактически генерирует обучающие примеры для самой себя.

Ключевое применение -- решение проблемы data imbalance. В медицине, например, данные о редких заболеваниях критически ограничены. Синтетические данные позволяют создать тысячи примеров, сохраняя статистические свойства реальных данных, но без привязки к конкретным пациентам. Это решает одновременно проблему нехватки данных и приватности.

Но у синтетических данных есть фундаментальная проблема: model collapse. Исследование Оксфордского университета, опубликованное в Nature, показало, что модели, обученные преимущественно на синтетических данных, постепенно теряют разнообразие и точность. Они начинают усиливать собственные ошибки и предубеждения с каждым поколением -- эффект, аналогичный потере качества при многократном копировании.

Рынок и регулирование

На наш взгляд, рынок synthetic data растет стремительно. Стартапы Mostly AI, Synthetaic и Gretel AI привлекли суммарно более $400 миллионов в 2025-2026 годах. Scale AI, крупнейший поставщик данных для обучения AI, запустил подразделение Scale Synthetic. По прогнозам Markets and Markets, рынок синтетических данных достигнет $5.5 миллиардов к 2028 году.

Регуляторный аспект добавляет сложности. EU AI Act требует прозрачности в данных обучения, но не дает четкого определения для синтетических данных. Если модель обучена на данных, сгенерированных из реальных данных пациентов, считается ли это обработкой персональных данных? Юристы спорят, а регуляторы пока молчат.

Для разработчиков AI практический вывод ясен: синтетические данные -- мощный инструмент, но не замена реальным данным. Лучшие результаты дает комбинация: реальные данные для основы, синтетические для расширения и балансировки. Ключевые метрики качества синтетических данных -- fidelity (насколько точно они отражают реальность) и diversity (насколько широко покрывают пространство возможных случаев).

Что это значит: синтетические данные решают проблему масштаба, но создают новый вызов -- контроль качества. Индустрия движется к гибридному подходу, где AI-сгенерированные данные дополняют реальные. Для компаний это означает, что инвестиции в инфраструктуру данных остаются критически важными, даже когда часть данных создается машинами.

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

Тип материала: Анализ

Поделиться:TelegramXLinkedIn
Как вам материал?

Читайте также

Хотите получать подобные материалы раньше?

Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.

Узнать про Intelligence

Не пропускайте важное

Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.

Похожие материалы

IBM: 64% CEO принимают стратегические решения на основе AI

Исследование IBM: 64% CEO глобальных компаний уже принимают стратегические решения на основе AI — не изучают, не тестируют, а принимают.

·1 мин

Китай: четыре открытые AI-модели за 12 дней дешевле Claude в 4 раза

DeepSeek V4 Pro, Kimi K2.6, GLM-5.1, MiniMax M2.7 — паритет с западным фронтиром в кодинге при стоимости в 4 раза ниже Claude Opus 4.7.

·1 мин

OpenAI заблокировал GPT-5.5-Cyber — как Anthropic с Mythos, которую сам критиковал

OpenAI ограничил GPT-5.5-Cyber — повторив подход Anthropic с Mythos, который сам публично критиковал.

·1 мин