Claude Opus 4.5: почему Anthropic назвала его лучшим агентом в мире

24 ноября 2025 года Anthropic выпустила Claude Opus 4.5 — модель, которая установила новые стандарты в агентных задачах и компьютерном использовании. Разбираемся, что изменилось

Aravana·2026-03-20·5 мин

Ключевые выводы

— Claude Opus 4.5 показал лучшие в индустрии результаты на агентных бенчмарках SWE-bench Verified (72.2%), TAU-bench и внутренних тестах Anthropic на многоходовое планирование.
— Computer Use API вышел из бета-версии: модель может управлять рабочим столом, браузером и приложениями с точностью, сопоставимой с человеком-оператором.
— Anthropic сделала ставку на безопасность агентов: система Constitutional AI 2.0 включает механизмы отказа от потенциально опасных действий и обязательное подтверждение необратимых операций.

24 ноября 2025 года Anthropic выпустила Claude Opus 4.5 — и впервые в истории компании использовала формулировку «best AI agent in the world» в официальном пресс-релизе. Для Anthropic, известной своей сдержанностью в маркетинговых заявлениях, это было нехарактерно смело. Но цифры говорили за себя: на SWE-bench Verified — стандартном бенчмарке для оценки способности AI решать реальные задачи по разработке ПО — Opus 4.5 набрал 72.2%, опередив GPT-5 (68.1%) и Gemini Ultra 2.0 (65.7%). Однако главные новости были не в бенчмарках.

Ключевое нововведение Opus 4.5 — это выход Computer Use API из бета-статуса. Напомним контекст: в октябре 2024 года Anthropic впервые показала, как Claude может управлять компьютером — двигать мышь, нажимать кнопки, заполнять формы. Это было впечатляюще, но сыро: модель часто промахивалась мимо элементов интерфейса, путалась в сложных приложениях, теряла контекст при переключении между окнами. Claude 3.5 Sonnet и затем Opus 4.0 постепенно улучшали качество, но Computer Use оставался в бете с пометкой «для экспериментов, не для production». С Opus 4.5 эта пометка была снята.

Агентские способности Opus 4.5

Что конкретно изменилось? Во-первых, точность взаимодействия с UI. Anthropic ввела новую систему визуального восприятия, которую внутри компании называют Grounded Vision. Вместо того чтобы работать с сырым изображением экрана, модель теперь строит структурированное представление интерфейса — иерархию элементов, их свойства, состояния. Это позволяет ей точно идентифицировать кнопки, поля ввода, выпадающие списки даже в нестандартных интерфейсах. По данным Anthropic, точность клика по целевому элементу выросла с 83% у Opus 4.0 до 96.4% у Opus 4.5. Ошибочные клики в пустую область — те самые «промахи мимо кнопки» — сократились до менее чем 1%.

Во-вторых, многоходовое планирование. Агентные задачи по своей природе требуют длинных цепочек действий: открыть браузер → зайти на сайт → найти нужную информацию → скопировать → переключиться в другое приложение → вставить → продолжить. Opus 4.5 получил улучшенный механизм planning ahead: перед началом сложной задачи модель формирует план из 10-20 шагов, декомпозирует его на подзадачи и отслеживает прогресс. Если что-то идёт не так — изменился интерфейс, появилось неожиданное окно — модель умеет пересматривать план на лету, а не падать с ошибкой.

Третий аспект — безопасность, и здесь Anthropic показала, почему они сначала «safety company», а потом — AI-компания. Computer Use API в Opus 4.5 работает с системой Constitutional AI 2.0, адаптированной специально для агентных сценариев. Модель имеет встроенный набор ограничений: она не будет удалять файлы без подтверждения, не будет отправлять email от имени пользователя без явного разрешения, не будет совершать финансовые операции без двухэтапного подтверждения. Более того, введена концепция «irreversibility score» — оценка необратимости каждого действия по шкале от 0 до 1. Действия с высоким score (удаление данных, отправка сообщений, изменение настроек безопасности) требуют явного подтверждения пользователя.

Результаты бенчмарков и тестов

На практике это работает так: вы даёте Claude задачу «Забронируй мне отель в Берлине на 15-17 декабря, бюджет до €150 за ночь». Модель открывает браузер, заходит на Booking.com, фильтрует результаты, выбирает подходящий вариант, заполняет форму бронирования — и останавливается перед кнопкой «Подтвердить бронирование». Потому что это необратимое финансовое действие. Она показывает вам скриншот с заполненной формой и спрашивает: «Подтвердить бронирование Hotel Allegra за €128/ночь?» Только после вашего «да» она нажимает кнопку. Это не просто удобство — это принципиально другой уровень доверия к AI-агенту.

Мы протестировали Opus 4.5 на нескольких реальных задачах. Исследование рынка: «Найди 10 компаний в области synthetic biology, которые получили финансирование в 2025 году, и составь таблицу с суммами раундов». Модель за 12 минут обошла Crunchbase, PitchBook и несколько новостных сайтов, собрала данные и оформила их в Google Sheets. Из 10 компаний 9 были корректными, одна — ложный результат (компания получила финансирование в 2024, а не 2025). Для автономной работы без человеческого контроля — впечатляющий результат.

Ещё один тест: рефакторинг кодовой базы. Мы дали Opus 4.5 доступ к среднему по размеру TypeScript-проекту (около 40 000 строк кода) и попросили мигрировать конфигурацию с Webpack на Vite. Модель проанализировала структуру проекта, создала vite.config.ts, обновила package.json, модифицировала импорты в 23 файлах, исправила три несовместимости с плагинами — и проект скомпилировался с первого раза. Весь процесс занял 8 минут. Разработчик средней квалификации потратил бы на ту же задачу 2-3 часа.

Стоит поговорить и о конкурентном ландшафте. К моменту выхода Opus 4.5 OpenAI уже предлагала Operator — своего агента для браузера, а Google продвигал Project Mariner. Но обе эти системы были специализированными: они умели работать в браузере, но не имели доступа к десктопу, файловой системе, терминалу. Claude с Computer Use — единственный агент, работающий на уровне всей операционной системы. Это и преимущество, и ответственность: потенциал для полезных применений огромен, но и риски — тоже. Anthropic, похоже, нашла правильный баланс между возможностями и ограничениями.

Конкуренция в агентском AI

Отдельно отметим экосистему. С выходом Opus 4.5 Anthropic обновила Claude Code — свой CLI-инструмент для разработчиков — и добавила поддержку агентных teams: несколько экземпляров Claude, работающих параллельно над разными аспектами задачи. Появились официальные интеграции с IDE (VS Code, JetBrains), системами CI/CD (GitHub Actions, GitLab CI) и инфраструктурными инструментами (Terraform, Kubernetes). Claude перестал быть «чатботом» и стал полноценным рабочим инструментом, интегрированным в профессиональные workflows.

Ценообразование тоже заслуживает внимания. Opus 4.5 стоит $15 за миллион входных токенов и $75 за миллион выходных — дорого по меркам API-рынка. Но Anthropic предложила Agent Bundles: пакеты, в которых Computer Use и длинные контексты (до 200K токенов) оплачиваются со скидкой до 40% при использовании в агентных сценариях. По нашим расчётам, средняя стоимость выполнения типичной агентной задачи (10-15 шагов, 3-5 инструментов) составляет $0.30-0.80 — дешевле часа работы самого дешёвого фрилансера в мире.

Если отступить от технических деталей и посмотреть на картину шире, Opus 4.5 — это модель, которая сделала концепцию AI-агента осязаемой для широкой аудитории. До неё агенты были в основном предметом хакерских экспериментов и академических статей. После неё — это рабочий инструмент, который можно дать нетехническому пользователю и сказать: «Попроси его сделать то, что тебе нужно». Разрыв между демо и реальным продуктом сократился радикально.

Как вы считаете, готов ли мир к AI-агентам, которые управляют компьютером от нашего имени, — или нам нужно сначала выработать новые нормы цифровой безопасности и доверия?

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

Тип материала: Анализ

Поделиться:Telegram X LinkedIn

Как вам материал?

Anthropic запустил рынок, где AI-агенты торгуются друг с другом за реальные деньги

Anthropic ran an internal marketplace where AI agents transacted on behalf of 69 employees — uncovering a hidden agent-quality gap that users couldn't detect.

2026-04-26·1 мин

AI Agents·Срочное

Microsoft перестраивает Copilot по образцу open-source агента OpenClaw

Satya Nadella поставил задачу переделать Copilot под OpenClaw — бесплатный open-source агент, управляемый через WhatsApp. Команда Ocean 11 уже работает над переработкой. Дебют — Microsoft Build, июнь 2026.

2026-04-14·1 мин

AI Agents·Срочное

Perplexity стал личным финансовым советником — и теперь знает, сколько у вас на счёте

Perplexity запустила интеграцию с Plaid — AI-агент Computer теперь подключается к 12 000+ банкам и видит реальные данные по счетам, кредитам и портфелям пользователя.

2026-04-12·1 мин