Бенчмарки vs реальность: что на самом деле показывают тесты AI
SWE-bench, HumanEval, GPQA — бенчмарки определяют рейтинги моделей. Но насколько они отражают реальность? Разбираемся в проблемах AI-тестирования.
- — Бенчмарки SWE-bench и HumanEval часто расходятся с реальным опытом
- — Контаминация обучающих данных — системная проблема бенчмарков
- — Chatbot Arena (LMSYS) — наиболее приближённый к реальности рейтинг
- — Агентные оценки — новый стандарт, измеряющий реальную полезность
Бенчмарк как валюта
В мире AI бенчмарки — это валюта. Каждый анонс модели сопровождается таблицей: «Мы побили SOTA на X, Y, Z». Инвесторы, журналисты, разработчики — все смотрят на цифры. 81.4% на SWE-bench? Впечатляет. 94.3% на GPQA? Ещё лучше. Но что стоит за этими цифрами — и насколько они предсказывают реальную полезность модели?
Мы задались этим вопросом не из теоретического любопытства. Мы работаем с AI-моделями ежедневно и регулярно сталкиваемся с ситуацией, когда модель с лучшими бенчмарками проигрывает на нашей конкретной задаче модели с худшими бенчмарками. Почему?
Что измеряют популярные бенчмарки
SWE-bench Verified: способность модели решать реальные баги в Python open-source проектах. 2,294 задачи из 12 репозиториев. Плюс: реальные задачи из реальных проектов. Минус: только Python, только определённые проекты, только баг-фиксы.
HumanEval: 164 задачи на программирование, написанные вручную. Плюс: чистые задачи без шума. Минус: слишком простые для современных моделей (все флагманы показывают 90%+), высокий риск контаминации (задачи утекли в обучающие данные).
GPQA: 448 вопросов уровня аспирантуры по физике, химии, биологии. Плюс: действительно сложные, проверяют глубину знаний. Минус: очень узкая область, не отражает повседневные задачи.
MMLU: 14,042 вопроса по 57 предметам. Плюс: широта покрытия. Минус: формат множественного выбора не отражает реальное использование AI; модели учатся «угадывать» правильный ответ.
Проблема контаминации
Контаминация — когда задачи бенчмарка попадают в обучающие данные модели — системная проблема индустрии. HumanEval известен этим: модели видели эти задачи во время обучения и фактически «вспоминают» ответы, а не решают задачи. Результат — завышенные оценки, не отражающие реальную способность к решению новых задач.
SWE-bench частично решает эту проблему, используя реальные Git-коммиты с определённой датой — задачи, созданные после даты обучения модели, не могли попасть в обучающие данные. Но и здесь есть нюанс: паттерны решения похожих задач могли быть в обучающих данных, что даёт модели несправедливое преимущество.
Chatbot Arena: голос пользователей
LMSYS Chatbot Arena — принципиально другой подход к оценке. Реальные пользователи задают вопросы двум анонимным моделям и голосуют за лучший ответ. Рейтинг строится на основе сотен тысяч голосов по системе Elo (как в шахматах).
Преимущество Arena — она измеряет то, что важно пользователям: полезность, качество, стиль, точность — в комплексе. Недостаток — субъективность: пользователи могут предпочитать более длинные ответы или более уверенный тон, что не коррелирует с точностью. Тем не менее, Arena — наиболее приближённый к реальности рейтинг на сегодня.
Разрыв между бенчмарками и реальностью
Мы наблюдаем конкретные примеры разрыва. Модель с лучшим SWE-bench может хуже справляться с вашим конкретным стеком технологий (если он не Python). Модель с лучшим GPQA может давать менее полезные ответы на бизнес-вопросы. Модель с лучшим MMLU может хуже следовать сложным инструкциям.
Причина — бенчмарки измеряют конкретные навыки в контролируемых условиях. Реальное использование — это смесь навыков в непредсказуемых условиях. Хирург с лучшими оценками на экзамене — не обязательно лучший хирург в операционной.
Агентные оценки: новый стандарт
Новое направление — агентные бенчмарки: SWE-bench (агентный вариант), OSWorld, WebArena, τ-bench. Они тестируют не ответы на вопросы, а способность модели решать задачи в реальной среде: писать код, запускать тесты, навигировать по веб-сайтам, использовать инструменты.
Агентные оценки ближе к реальности, потому что они тестируют полный цикл: понимание задачи → планирование → выполнение → проверка результата. Это то, что мы ожидаем от AI-ассистента. Мы считаем, что агентные бенчмарки станут основным стандартом оценки в ближайшие годы.
Как выбирать модель без бенчмарков
Наш подход к выбору модели — прагматический. Бенчмарки как первичный фильтр: если модель показывает менее 70% на ключевых бенчмарках, она вряд ли подойдёт для сложных задач. Но финальный выбор — всегда по результатам тестирования на собственных задачах.
Мы создаём свой «мини-бенчмарк» из 20–30 реальных задач, которые мы решаем регулярно. Прогоняем каждую кандидатскую модель через этот набор и оцениваем качество. Этот подход дороже, чем просто посмотреть на таблицу бенчмарков, но он даёт значительно более точный результат.
Будущее оценки AI
Бенчмарки будут продолжать развиваться. Более реалистичные задачи, более устойчивые к контаминации, более разнообразные домены. Агентные оценки будут расти в значимости. Персонализированные бенчмарки — когда каждая компания создаёт свой набор задач — станут нормой.
Но фундаментальная проблема останется: любой бенчмарк — это упрощение реальности. И чем лучше модели научатся «взламывать» бенчмарки (оптимизироваться под конкретные тесты), тем менее информативными бенчмарки будут. Гонка между создателями бенчмарков и создателями моделей будет продолжаться.
Практический вывод
Не доверяйте бенчмаркам слепо. Используйте их как ориентир, но не как истину. Тестируйте модели на своих задачах. Обращайте внимание на Chatbot Arena и агентные бенчмарки. И помните: лучшая модель — это та, которая лучше всего решает ваши конкретные задачи, а не та, которая побеждает на абстрактном тесте.
Были ли у вас случаи, когда модель с лучшими бенчмарками разочаровывала на реальных задачах — и наоборот?
Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.
- Модели рассуждений: o3 vs DeepSeek R1 vs Claude Thinking
Reasoning-модели особенно известны high-benchmark результатами. Статья о бенчмарках ставит правильный вопрос: что за ними стоит?
- GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro: кто лучший в 2026 году
Сравнение моделей неизбежно опирается на бенчмарки. Статья о реальности бенчмарков — необходимая оговорка к любому сравнению.
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceНе пропускайте важное
Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.