Claude Opus 4.6: миллион токенов контекста и что это меняет на практике
Anthropic выпустила Claude Opus 4.6 с контекстным окном в 1 миллион токенов. Разбираемся, почему длинный контекст — это не просто маркетинговая цифра, а фундаментальный сдвиг в возможностях AI.
Тип материала: Анализ
- — Claude Opus 4.6 получил контекстное окно в 1 млн токенов — это примерно 750 000 слов, или около 3 000 страниц текста в одном запросе.
- — Модель демонстрирует улучшения в рассуждениях, многошаговом планировании и работе с кодом по сравнению с Opus 4.5.
- — Длинный контекст открывает новые классы задач: анализ целых кодовых баз, юридических корпусов и научных архивов без потери информации.
5 февраля 2026 года Anthropic представила Claude Opus 4.6 — новую флагманскую модель с контекстным окном в 1 миллион токенов. Миллион токенов — это примерно 750 000 слов на английском языке, что эквивалентно нескольким толстым романам или полной кодовой базе среднего стартапа. Если раньше работа с большими объёмами текста требовала разбиения на части и потери контекста между ними, теперь можно загрузить всё целиком.
Контекстное окно — один из самых важных параметров языковой модели, и его значение часто недооценивают. Представьте себе аналитика, который может одновременно держать перед глазами все документы компании за год — финансовую отчётность, переписку, контракты, код, презентации. Именно это даёт миллион токенов. Модель с контекстом в 8 000 токенов (стандарт GPT-3.5 в 2023 году) — это аналитик, который видит одну страницу за раз и полагается на память.
Для понимания масштаба: GPT-4 при запуске в марте 2023 года имел контекст в 8 192 токена, с расширенной версией до 32 768. Claude 2 в июле 2023 — 100 000. Gemini 1.5 Pro в феврале 2024 — до 1 млн, но с заметной деградацией качества на длинных контекстах. Claude Opus 4.6, по заявлениям Anthropic и первым независимым тестам, сохраняет высокое качество ответов даже при загрузке контекста близко к максимуму.
Помимо длины контекста, Opus 4.6 показывает улучшения в нескольких ключевых областях. В бенчмарке GPQA Diamond (graduate-level science questions) модель набирает по некоторым оценкам более 72%, что ставит её на уровень лучших моделей в мире. В задачах программирования на SWE-bench Verified (реальные issues из GitHub-репозиториев) модель также демонстрирует прогресс, особенно в задачах, требующих понимания большого объёма кода.
Что это значит на практике? Мы видим несколько конкретных сценариев, которые раньше были невозможны или крайне неудобны. Первый — анализ юридических документов. Типичный договор M&A может содержать 200-500 страниц основного текста плюс приложения. Раньше юристы использовали RAG-системы (Retrieval-Augmented Generation) для работы с такими объёмами, но RAG неизбежно теряет контекст между фрагментами. Opus 4.6 может прочитать весь документ целиком и ответить на вопросы, учитывая все перекрёстные ссылки и оговорки.
Второй сценарий — разработка ПО. Средний проект на 50 000 строк кода (типичный продукт стартапа) — это примерно 500 000-700 000 токенов с учётом документации и тестов. Opus 4.6 может загрузить такой проект целиком и работать с ним как единым целым: находить баги, рефакторить архитектуру, писать тесты с учётом всех зависимостей. Инструменты вроде Claude Code от Anthropic уже используют эту возможность.
Третий сценарий — исследования. Учёный может загрузить 20-30 научных статей (каждая по 10 000-20 000 токенов) и попросить модель найти противоречия между ними, выделить общие паттерны или предложить новые гипотезы. Раньше это требовало либо ручного чтения, либо сложных пайплайнов с промежуточным суммированием, которые теряли нюансы.
Конкуренция в области длинного контекста обостряется. Google Gemini 1.5 Pro и Gemini 2.0 также поддерживают миллион токенов. OpenAI GPT-5 предлагает 256 000 токенов в стандартном режиме. Но длина контекста — это не единственный параметр. Критично качество: насколько точно модель использует информацию из начала контекста при генерации ответа? Исследования показывают, что многие модели страдают от «lost in the middle» — информация в середине длинного контекста обрабатывается хуже, чем в начале или в конце. Anthropic заявляет, что Opus 4.6 существенно уменьшает этот эффект.
Экономика использования тоже важна. Обработка 1 млн токенов на входе стоит заметных денег. При текущих ценах Anthropic API ($15 за 1 млн входных токенов для Opus) полное заполнение контекстного окна обойдётся в $15 за один запрос. Это дорого для массового использования, но вполне приемлемо для задач, где альтернатива — часы работы высокооплачиваемого специалиста. Юрист, который берёт $500/час и тратит 4 часа на анализ документа, обходится в $2 000. AI делает это за $15 и 2 минуты.
Есть и более глубокий технический вопрос: является ли длинный контекст заменой RAG или они дополняют друг друга? Наше мнение: для большинства практических задач длинный контекст проще, надёжнее и даёт лучшие результаты. RAG остаётся полезным, когда объём данных действительно превышает возможности контекстного окна (например, база знаний в миллионы документов) или когда данные постоянно обновляются. Но для задач «прочитай эти 50 файлов и ответь» — длинный контекст побеждает.
Для Anthropic как компании Opus 4.6 — это стратегический продукт. Компания позиционирует себя как лидера в области безопасности AI и «вдумчивого» подхода к развитию. Opus 4.6 усиливает это позиционирование: модель не только мощная, но и аккуратная. По данным Anthropic, она реже галлюцинирует на длинных контекстах, чем предыдущие версии, и лучше справляется с инструкциями о формате вывода.
Что дальше? Дарио Амодеи, CEO Anthropic, в нескольких интервью говорил, что контекстное окно будет расти и дальше — до десятков миллионов токенов в ближайшие год-два. Если это произойдёт, мы перейдём к модели, которая может «прочитать» всю документацию крупной корпорации или весь архив научного журнала за десятилетия. Это другой класс инструментов — уже не «умный помощник», а «вторая память» организации.
Какие задачи вы бы хотели решать с AI, который может одновременно видеть миллион токенов контекста — и какие из них вам пока недоступны?
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceМодели рассуждений: o3 vs DeepSeek R1 vs Claude Thinking
Reasoning-модели — главный тренд 2025–2026. Разбираемся, как o3, R1 и Claude Thinking подходят к рассуждениям по-разному.
Google Gemini 3 Pro: что нового и почему Google снова в гонке
Google представила Gemini 3 Pro — мультимодальную модель нового поколения. Разбираемся в технических деталях и в том, как это меняет позиции Google в AI-гонке.
Claude Opus 4.5: тихий релиз модели, которая изменила стандарты
Anthropic выпустила Claude Opus 4.5 — модель, которая задала новую планку качества для текстовых задач и кода. Что внутри и почему это важно.