Стэнфорд проверил: лучшие AI-агенты справляются со сложными задачами вдвое хуже учёных

Stanford AI Index 2026: на многошаговых научных задачах лучшие AI-агенты набирают ~50% от результата PhD-экспертов — число AI-публикаций в науке выросло в 30 раз, но качество агентов отстаёт

Aravana··1 мин

🔴 Стэнфорд проверил: лучшие AI-агенты справляются со сложными задачами вдвое хуже учёных

Новый отчёт Stanford AI Index 2026 содержит вывод, который легко не заметить за заголовками о Китае и США: на сложных многошаговых научных задачах лучшие AI-агенты набирают примерно вдвое меньше баллов, чем эксперты с учёными степенями.

Не «чуть хуже». Вдвое.

Йоланда Гил, руководитель исследования (USC): «Агенты замечательны, но мы ещё далеко от понимания, как ими правильно пользоваться».

Что это значит на практике: • AI отлично работает на стандартных задачах — поиск, резюмирование, код по образцу • На сложных многошаговых сценариях цепочка ошибок накапливается, и результат разваливается • Число научных публикаций с упоминанием AI выросло в 30 раз с 2010 года — но возможности агентов сильно отстают от хайпа

AI меняет науку — и быстро. Но там, где кажется, что агент справляется, он может справляться вдвое хуже эксперта. Полезно знать, где настоящая граница.

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

Тип материала: Пост из Telegram

Поделиться:TelegramXLinkedIn
Как вам материал?

Хотите получать подобные материалы раньше?

Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.

Узнать про Intelligence

Не пропускайте важное

Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.

Похожие материалы

Хассабис: до AGI — четыре года или меньше

CEO Google DeepMind сдвигает прогноз: AGI может прийти к 2029 году. Текущие AI-агенты — «тренировка перед настоящим».

·1 мин

Anthropic выкатила Opus 4.8 всего через 41 день после 4.7 — и это новый темп

Новый флагман Anthropic вышел через 41 день после 4.7. Dynamic Workflows для сотен подагентов, цена прежняя. Следом обещают Mythos.

·1 мин

ByteDance открыла исходники Lance — одна модель делает картинки, видео и редактирует их

ByteDance выложила Lance — мультимодальную модель на 3 миллиарда параметров под Apache 2.0. Понимает и генерирует картинки и видео, редактирует одним промптом, работает локально на одной карте с 40 ГБ видеопамяти. Лучшие баллы среди унифицированных моделей по GenEval, VBench и GEdit-Bench.

·1 мин