Стэнфорд проверил: лучшие AI-агенты справляются со сложными задачами вдвое хуже учёных

Stanford AI Index 2026: на многошаговых научных задачах лучшие AI-агенты набирают ~50% от результата PhD-экспертов — число AI-публикаций в науке выросло в 30 раз, но качество агентов отстаёт

Aravana·2026-04-14·1 мин

🔴 Стэнфорд проверил: лучшие AI-агенты справляются со сложными задачами вдвое хуже учёных

Новый отчёт Stanford AI Index 2026 содержит вывод, который легко не заметить за заголовками о Китае и США: на сложных многошаговых научных задачах лучшие AI-агенты набирают примерно вдвое меньше баллов, чем эксперты с учёными степенями.

Не «чуть хуже». Вдвое.

Йоланда Гил, руководитель исследования (USC): «Агенты замечательны, но мы ещё далеко от понимания, как ими правильно пользоваться».

Что это значит на практике: • AI отлично работает на стандартных задачах — поиск, резюмирование, код по образцу • На сложных многошаговых сценариях цепочка ошибок накапливается, и результат разваливается • Число научных публикаций с упоминанием AI выросло в 30 раз с 2010 года — но возможности агентов сильно отстают от хайпа

AI меняет науку — и быстро. Но там, где кажется, что агент справляется, он может справляться вдвое хуже эксперта. Полезно знать, где настоящая граница.

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

Тип материала: Пост из Telegram

Поделиться:Telegram X LinkedIn

Как вам материал?

Anthropic запустил Sonnet 5: модель почти как Opus, но за $2 за миллион токенов

Anthropic выпустил Claude Sonnet 5 — модель для агентов, которая по бенчмаркам приближается к топовому Opus 4.8, но стоит заметно дешевле. Цена со старта: $2 за миллион входящих токенов и $10 за миллион исходящих до 31 августа. Anthropic делает ставку на массовое внедрение агентов.

2026-07-01·1 мин

AI/ML·Срочное

Google запустил Nano Banana 2 Lite: картинка за 4 секунды и $0,034

Google представил Nano Banana 2 Lite — самую быструю и самую дешёвую версию своего генератора картинок: $0,034 за изображение в 1K и 4 секунды на генерацию. Параллельно вышел Gemini Omni Flash для видео — $0,10 за секунду 10-секундного клипа.

2026-07-01·1 мин

AI/ML·Срочное

NVIDIA заходит в кабинет к врачу — вместе с Abridge и Eli Lilly

NVIDIA и Abridge строят отдельную AI-модель для клинических диалогов; Eli Lilly инвестирует в платформу, работающую с 300+ системами здравоохранения.

2026-06-19·1 мин