Opus 4.7: зрение стало в 3 раза острее, токены подорожали на треть
Anthropic выпустила Opus 4.7: разрешение картинок выросло втрое, появился новый уровень усилий xhigh, модель лидирует в оркестрации и финанализе. Но токенизатор изменился, и реальная стоимость запросов выросла на треть.
Тип материала: Пост из Telegram
Anthropic выпустила Claude Opus 4.7. Разбираемся, что изменилось и стоит ли обновляться.
Цена осталась прежней: $5 за миллион входных токенов, $25 за выходные. Доступен через API, Bedrock, Vertex AI и Microsoft Foundry. Но есть подвох: токенизатор изменился. Один и тот же текст теперь генерирует до 1.35x больше токенов. Формально цена та же, фактически запросы подорожали на треть.
Четыре главных изменения
Первое. Зрение. Максимальное разрешение выросло с 1 150 до 2 576 пикселей по длинной стороне. Это объясняет скачок на бенчмарках визуального мышления: с 69% до 82%. Модель теперь нормально читает мелкий текст на скриншотах, разбирает сложные графики и видит детали в схемах, которые раньше превращались в кашу.
Второе. Новый уровень усилий xhigh, промежуточный между high и max. На 100 000 токенах xhigh набирает 71% в агентном кодинге. Это выше, чем Opus 4.6 показывал на максимальных настройках. Проще говоря: можно получить качество прошлого флагмана при меньших затратах.
Третье. Буквальное следование инструкциям. Модель точнее выполняет то, что ей сказали. Хорошая новость для новых проектов, но старые промпты, возможно, придется переписать.
Четвертое. Улучшенная файловая память. Агенты, работающие в несколько сессий, теперь лучше сохраняют контекст между запусками.
Где Opus 4.7 вырос сильнее всего
Программирование (SWE-bench Pro): с 53% до 64%. Это реальные задачи из open-source проектов. Opus 4.7 обогнал и GPT-5.4 (58%), и Gemini 3.1 Pro (54%).
Оркестрация инструментов (MCP-Atlas): 77.3%, первое место среди всех моделей. Для тех, кто строит AI-агентов, это ключевой показатель: модель лучше всех координирует работу с внешними сервисами, базами данных, API.
Финансовый анализ: 64.4%, тоже первое место. Opus лучше конкурентов разбирает отчетность, считает метрики и делает выводы.
Где Opus 4.7 отстает
Агентный поиск (BrowseComp): 79%. Хуже, чем Opus 4.6 (84%). Единственный бенчмарк, где новая версия слабее старой. GPT-5.4 набирает 89%.
Терминальное программирование: 69% против 75% у GPT-5.4.
Mythos Preview: настоящий победитель таблицы
Во всех бенчмарках, где Mythos участвовал, он либо первый, либо на пятки наступает лидеру. 93.9% на SWE-bench Verified. 82% на терминальном кодинге. 83% на кибербезопасности. О Mythos пока мало что известно, но цифры говорят сами за себя.
Кому стоит обновляться
Если вы работаете с документами, графиками, скриншотами: да, обновление заметное. Если строите AI-агентов: Opus 4.7 лучший выбор на рынке по оркестрации. Если ваш основной сценарий - поиск и навигация по интернету: возможно, стоит подождать.
И следите за счетами. Новый токенизатор означает, что ваши расходы вырастут на 20-35% без изменений в коде.
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceНе пропускайте важное
Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.