Стэнфорд проверил: лучшие AI-агенты справляются со сложными задачами вдвое хуже учёных
Stanford AI Index 2026: на многошаговых научных задачах лучшие AI-агенты набирают ~50% от результата PhD-экспертов — число AI-публикаций в науке выросло в 30 раз, но качество агентов отстаёт
Тип материала: Пост из Telegram
🔴 Стэнфорд проверил: лучшие AI-агенты справляются со сложными задачами вдвое хуже учёных
Новый отчёт Stanford AI Index 2026 содержит вывод, который легко не заметить за заголовками о Китае и США: на сложных многошаговых научных задачах лучшие AI-агенты набирают примерно вдвое меньше баллов, чем эксперты с учёными степенями.
Не «чуть хуже». Вдвое.
Йоланда Гил, руководитель исследования (USC): «Агенты замечательны, но мы ещё далеко от понимания, как ими правильно пользоваться».
Что это значит на практике: • AI отлично работает на стандартных задачах — поиск, резюмирование, код по образцу • На сложных многошаговых сценариях цепочка ошибок накапливается, и результат разваливается • Число научных публикаций с упоминанием AI выросло в 30 раз с 2010 года — но возможности агентов сильно отстают от хайпа
AI меняет науку — и быстро. Но там, где кажется, что агент справляется, он может справляться вдвое хуже эксперта. Полезно знать, где настоящая граница.
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceНе пропускайте важное
Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.