Все Insights

Бенчмарки vs реальность: что на самом деле показывают тесты AI

SWE-bench, HumanEval, GPQA — бенчмарки определяют рейтинги моделей. Но насколько они отражают реальность? Разбираемся в проблемах AI-тестирования.

Aravana··4 мин

Тип материала: Анализ

Поделиться:TelegramXLinkedIn

Ключевые выводы

  • Бенчмарки SWE-bench и HumanEval часто расходятся с реальным опытом
  • Контаминация обучающих данных — системная проблема бенчмарков
  • Chatbot Arena (LMSYS) — наиболее приближённый к реальности рейтинг
  • Агентные оценки — новый стандарт, измеряющий реальную полезность

## Бенчмарк как валюта

В мире AI бенчмарки — это валюта. Каждый анонс модели сопровождается таблицей: «Мы побили SOTA на X, Y, Z». Инвесторы, журналисты, разработчики — все смотрят на цифры. 81.4% на SWE-bench? Впечатляет. 94.3% на GPQA? Ещё лучше. Но что стоит за этими цифрами — и насколько они предсказывают реальную полезность модели?

Мы задались этим вопросом не из теоретического любопытства. Мы работаем с AI-моделями ежедневно и регулярно сталкиваемся с ситуацией, когда модель с лучшими бенчмарками проигрывает на нашей конкретной задаче модели с худшими бенчмарками. Почему?

## Что измеряют популярные бенчмарки

SWE-bench Verified: способность модели решать реальные баги в Python open-source проектах. 2,294 задачи из 12 репозиториев. Плюс: реальные задачи из реальных проектов. Минус: только Python, только определённые проекты, только баг-фиксы.

HumanEval: 164 задачи на программирование, написанные вручную. Плюс: чистые задачи без шума. Минус: слишком простые для современных моделей (все флагманы показывают 90%+), высокий риск контаминации (задачи утекли в обучающие данные).

GPQA: 448 вопросов уровня аспирантуры по физике, химии, биологии. Плюс: действительно сложные, проверяют глубину знаний. Минус: очень узкая область, не отражает повседневные задачи.

MMLU: 14,042 вопроса по 57 предметам. Плюс: широта покрытия. Минус: формат множественного выбора не отражает реальное использование AI; модели учатся «угадывать» правильный ответ.

## Проблема контаминации

Контаминация — когда задачи бенчмарка попадают в обучающие данные модели — системная проблема индустрии. HumanEval известен этим: модели видели эти задачи во время обучения и фактически «вспоминают» ответы, а не решают задачи. Результат — завышенные оценки, не отражающие реальную способность к решению новых задач.

SWE-bench частично решает эту проблему, используя реальные Git-коммиты с определённой датой — задачи, созданные после даты обучения модели, не могли попасть в обучающие данные. Но и здесь есть нюанс: паттерны решения похожих задач могли быть в обучающих данных, что даёт модели несправедливое преимущество.

## Chatbot Arena: голос пользователей

LMSYS Chatbot Arena — принципиально другой подход к оценке. Реальные пользователи задают вопросы двум анонимным моделям и голосуют за лучший ответ. Рейтинг строится на основе сотен тысяч голосов по системе Elo (как в шахматах).

Преимущество Arena — она измеряет то, что важно пользователям: полезность, качество, стиль, точность — в комплексе. Недостаток — субъективность: пользователи могут предпочитать более длинные ответы или более уверенный тон, что не коррелирует с точностью. Тем не менее, Arena — наиболее приближённый к реальности рейтинг на сегодня.

## Разрыв между бенчмарками и реальностью

Мы наблюдаем конкретные примеры разрыва. Модель с лучшим SWE-bench может хуже справляться с вашим конкретным стеком технологий (если он не Python). Модель с лучшим GPQA может давать менее полезные ответы на бизнес-вопросы. Модель с лучшим MMLU может хуже следовать сложным инструкциям.

Причина — бенчмарки измеряют конкретные навыки в контролируемых условиях. Реальное использование — это смесь навыков в непредсказуемых условиях. Хирург с лучшими оценками на экзамене — не обязательно лучший хирург в операционной.

## Агентные оценки: новый стандарт

Новое направление — агентные бенчмарки: SWE-bench (агентный вариант), OSWorld, WebArena, τ-bench. Они тестируют не ответы на вопросы, а способность модели решать задачи в реальной среде: писать код, запускать тесты, навигировать по веб-сайтам, использовать инструменты.

Агентные оценки ближе к реальности, потому что они тестируют полный цикл: понимание задачи → планирование → выполнение → проверка результата. Это то, что мы ожидаем от AI-ассистента. Мы считаем, что агентные бенчмарки станут основным стандартом оценки в ближайшие годы.

## Как выбирать модель без бенчмарков

Наш подход к выбору модели — прагматический. Бенчмарки как первичный фильтр: если модель показывает менее 70% на ключевых бенчмарках, она вряд ли подойдёт для сложных задач. Но финальный выбор — всегда по результатам тестирования на собственных задачах.

Мы создаём свой «мини-бенчмарк» из 20–30 реальных задач, которые мы решаем регулярно. Прогоняем каждую кандидатскую модель через этот набор и оцениваем качество. Этот подход дороже, чем просто посмотреть на таблицу бенчмарков, но он даёт значительно более точный результат.

## Будущее оценки AI

Бенчмарки будут продолжать развиваться. Более реалистичные задачи, более устойчивые к контаминации, более разнообразные домены. Агентные оценки будут расти в значимости. Персонализированные бенчмарки — когда каждая компания создаёт свой набор задач — станут нормой.

Но фундаментальная проблема останется: любой бенчмарк — это упрощение реальности. И чем лучше модели научатся «взламывать» бенчмарки (оптимизироваться под конкретные тесты), тем менее информативными бенчмарки будут. Гонка между создателями бенчмарков и создателями моделей будет продолжаться.

## Практический вывод

Не доверяйте бенчмаркам слепо. Используйте их как ориентир, но не как истину. Тестируйте модели на своих задачах. Обращайте внимание на Chatbot Arena и агентные бенчмарки. И помните: лучшая модель — это та, которая лучше всего решает ваши конкретные задачи, а не та, которая побеждает на абстрактном тесте.

Были ли у вас случаи, когда модель с лучшими бенчмарками разочаровывала на реальных задачах — и наоборот?

Хотите получать подобные материалы раньше?

Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.

Узнать про Intelligence

Похожие материалы

Open source vs закрытые модели: DeepSeek меняет правила игры

Open-source модели занимают 30% всех загрузок AI. DeepSeek предлагает API в 20–50 раз дешевле конкурентов. Разбираемся, что это значит для индустрии.

·5 мин·Выбор редакции

OpenAI покупает компанию Джони Айва: зачем AI-гиганту свой iPhone

OpenAI приобрела io — стартап легендарного дизайнера Apple Джони Айва — за $6.5 млрд. Это заявка на создание первого по-настоящему AI-нативного устройства.

·4 мин

DeepSeek R1: как китайская модель изменила правила AI-гонки

Модель DeepSeek R1 показала, что для создания конкурентоспособного AI не нужны миллиарды долларов. Эссе о том, как один релиз перевернул представления целой индустрии.

·5 мин