Как начать пользоваться Mercury 2 -- первая диффузионная LLM от Inception Labs
Mercury 2 -- это революционная языковая модель на диффузионной архитектуре от Inception Labs: в 5 раз быстрее Claude Haiku, 128К контекст и цена $0.25 за миллион токенов. Рассказываем, как подключиться и начать работу.
Mercury Edit 2 в IDE Kilo (июль 2026). Mercury Edit 2 интегрирован в редактор Kilo -- разработчики принимают предложения Edit 2 в 48% случаев, модель стала на 27% более избирательной. Стоимость Mercury Edit 2: $0.25 за 1M входящих / $0.75 за 1M исходящих; кэш -- $0.025. Новым аккаунтам -- 10 миллионов бесплатных токенов.
Что это и для кого
Mercury 2 -- это языковая модель нового поколения от компании Inception Labs. Mercury 2 BASE был запущен 20 февраля 2026 года; Mercury 2 Chat (версия для диалога) вышла 12 мая 2026 года. В отличие от всех существующих LLM (ChatGPT, Claude, Gemini), которые генерируют текст побуквенно (токен за токеном), Mercury 2 использует диффузионную архитектуру: модель сначала создаёт грубый черновик всего ответа, затем итерационно уточняет его -- примерно как художник, который сначала набрасывает эскиз, а потом прорабатывает детали.
Результат: Mercury 2 работает в 5 раз быстрее, чем Claude Sonnet 4.6, и примерно в 10 раз быстрее GPT-4o Mini. На GPU NVIDIA Blackwell (B200) модель достигает около 1009 токенов в секунду для версии Mercury Coder Mini и 737 токенов в секунду для Mercury Coder Small -- это рекордные показатели для коммерческих LLM. На устаревших H100 скорость несколько ниже. Для сравнения: GPT-4o генерирует около 60-80 токенов в секунду.
Кому нужна Mercury 2: разработчикам, которые строят приложения с AI и сталкиваются с задержками; командам, запускающим агентские пайплайны где LLM вызывается десятки раз подряд; компаниям с высоким объёмом запросов, где каждые 100ms имеют значение. Mercury 2 -- не замена Claude или GPT-4 для сложных задач рассуждения, а специализированный инструмент для сценариев, где скорость критична: реал-тайм ассистенты, обработка документов в потоке, быстрые ответы в чат-ботах.
Модель поддерживает использование инструментов (function calling) и вывод в JSON, имеет 128K токенов контекстного окна и полностью совместима с OpenAI API -- то есть в большинстве случаев достаточно поменять одну строчку кода в существующем приложении.
Как зарегистрироваться и получить доступ
Inception Labs предлагает несколько способов начать работу с Mercury 2. Самый простой -- прямой доступ через их платформу.
Шаг 1. Создайте аккаунт на Inception Platform. Перейдите на сайт inceptionlabs.ai и нажмите кнопку Get Started или Sign Up. Регистрация бесплатна и занимает около минуты -- достаточно email и пароля или входа через Google-аккаунт.
Шаг 2. Получите API ключ. После входа в личный кабинет перейдите в раздел API Keys и нажмите Create New Key. Каждому новому аккаунту автоматически выдаётся 10 миллионов бесплатных токенов -- этого достаточно для нескольких недель активного использования или тысяч запросов для тестирования.
Шаг 3. Протестируйте в Playground. Inception Labs предоставляет бесплатный веб-интерфейс для тестирования. Здесь можно сразу почувствовать скорость модели -- ответы появляются почти мгновенно. Playground поддерживает как текстовую генерацию, так и режим кода.
Альтернативный путь: через AWS Bedrock. Если вы уже работаете в экосистеме Amazon Web Services, Mercury 2 доступна в AWS Bedrock Marketplace и Amazon SageMaker JumpStart. В Bedrock нужно открыть раздел Model Catalog, отфильтровать по провайдеру Inception, выбрать нужную модель Mercury и нажать Subscribe, затем Deploy. Это особенно удобно для корпоративных клиентов с существующей инфраструктурой AWS.
Через Microsoft Azure: Mercury 2 также доступна в Azure AI Foundry. Процесс аналогичен AWS -- через Marketplace найдите Inception Labs и выберите модель.
Первый запуск -- что попробовать
После получения API ключа самый быстрый способ начать -- использовать стандартный OpenAI Python SDK, изменив только endpoint и ключ. Никаких дополнительных библиотек не нужно.
Установите OpenAI SDK если ещё не установлен: pip install openai
Затем используйте следующий шаблон -- замените 'ваш_mercury_api_key' на ваш реальный ключ из личного кабинета Inception Labs, а base_url укажите как https://api.inceptionlabs.ai/v1. В поле model используйте значение 'mercury-2' для общего чата или 'mercury-coder-small' для задач с кодом.
Обратите внимание: если вы переключаетесь с GPT или Claude, достаточно заменить api_key и base_url -- всё остальное синтаксически идентично. Именно это делает миграцию такой простой.
Что попробовать в первую очередь:
Задача 1 -- быстрая классификация текста. Дайте Mercury 2 список из 50 коротких отзывов и попросите каждый классифицировать как позитивный, негативный или нейтральный. Вы заметите, что ответы появляются значительно быстрее, чем у конкурентов.
Задача 2 -- потоковая генерация. Mercury 2 поддерживает streaming так же, как и OpenAI API. Включите stream=True при вызове -- для реал-тайм чат-ботов это критически важно, так как пользователь видит ответ по мере его генерации.
Задача 3 -- структурированный JSON вывод. Попросите модель вернуть структурированные данные, например извлечь из текста названия продуктов, цены и даты. Mercury 2 поддерживает JSON mode через параметр response_format -- укажите тип как json_object.
Задача 4 -- написание кода. Переключитесь на mercury-coder-small или mercury-coder-mini и попросите модель написать простую функцию на Python или JavaScript. Оцените скорость: в реальных тестах эти версии показывают генерацию полноценной функции за менее чем 1 секунду.
Задача 5 -- сравнение с другими моделями. Отправьте один и тот же промпт в Mercury 2 и в Claude Sonnet 4.6 или GPT-4o Mini. Засеките время первого токена (Time to First Token) и скорость полного ответа. Разница будет заметна особенно на длинных ответах -- Mercury 2 заканчивает раньше, чем конкуренты генерируют первую треть.
Задача 6 -- агентский пайплайн. Создайте простой агент, который делает последовательные вызовы модели: сначала анализирует задачу, потом составляет план, потом выполняет каждый шаг. На таких цепочках из 5-10 вызовов Mercury 2 экономит секунды по сравнению с медленными моделями -- что критично для UX.
Ключевые фишки
Диффузионная архитектура. Это не просто маркетинговая фраза. Традиционные LLM генерируют текст слева направо, каждый следующий токен зависит от всех предыдущих -- это последовательный процесс. Mercury 2 работает иначе: сначала создаётся грубый черновик всего ответа, затем итеративно уточняется параллельно по всем позициям. Это позволяет использовать современные GPU намного эффективнее, так как нет жёсткой последовательности вычислений.
Рекордная скорость вывода. На практике это означает следующее: там, где Claude Haiku генерирует 150-200 токенов в секунду, Mercury Coder Mini выдаёт около 1009 токенов в секунду на GPU Blackwell (B200). Для агентских систем, где LLM вызывается 20-50 раз подряд, общее время выполнения задачи сокращается многократно.
Полная совместимость с OpenAI API. Вы можете использовать Mercury 2 через AISuite, LiteLLM, LangChain и любые другие фреймворки, которые поддерживают OpenAI-совместимый интерфейс. Никакого переписывания кода -- смена одного endpoint и ключа.
Function Calling и JSON mode. Mercury 2 поддерживает вызов инструментов (tool use) в том же формате, что и OpenAI API. Модель может взаимодействовать с внешними API, базами данных и сервисами в рамках агентских сценариев.
Контекстное окно 128K токенов. Для большинства практических задач этого достаточно: суммаризация длинных документов, работа с большими кодовыми базами, анализ транскриптов встреч. Окно соответствует уровню Claude Haiku 3.5.
Несколько версий модели. Inception Labs предлагает линейку под разные задачи: Mercury Coder Mini (самая быстрая, 1109 ток/сек на H100 / ~1009 ток/сек на Blackwell, для простых кодовых задач), Mercury Coder Small (737 ток/сек, немного умнее), Mercury 2 Chat (общего назначения), Mercury 2 Reasoning (с улучшенными возможностями рассуждения для сложных логических задач). Для разных задач выбирается подходящий баланс скорости и качества.
Экономичность. Стоимость значительно ниже, чем у frontier моделей -- при этом для задач классификации, извлечения данных и генерации кода качество сопоставимо с более дорогими аналогами.
Mercury Edit 2. Отдельная специализированная версия для редактирования существующего кода. Вместо того чтобы генерировать весь файл заново, Mercury Edit 2 работает с диффами -- вносит точечные изменения в нужные места. Это делает её особенно удобной для IDE-интеграций и code review инструментов.
Настраиваемая глубина рассуждения (Tunable Reasoning). Mercury 2 Reasoning поддерживает управление интенсивностью диффузионных итераций -- по сути, аналог уровней "thinking" у других моделей. Через параметр API reasoning_steps можно указать количество итераций уточнения ответа: меньше итераций -- быстрее и дешевле, больше -- качественнее для сложных задач. Это уникальная особенность диффузионной архитектуры, которой нет у авторегрессивных моделей.
Параллельная обработка нескольких запросов. Из-за архитектурных особенностей Mercury 2 особенно эффективна при batch-обработке. Если вашему приложению нужно одновременно обработать 100 коротких запросов, Mercury 2 справится с этим значительно быстрее за счёт более высокой пропускной способности на GPU. Для систем мониторинга, автоматической модерации контента или массовой аналитики это меняет экономику использования AI.
Поддержка через популярные AI-роутеры. Mercury 2 доступна через OpenRouter, Together AI и другие агрегаторы AI-моделей. Это удобно, если вы уже используете роутинг между несколькими моделями -- Mercury 2 можно добавить как быстрый и дешёвый вариант для задач, где скорость важнее глубины ответа.
Обновление возможностей (май 2026)
В мае 2026 года Inception Labs выпустила обновление возможностей Mercury 2. Ключевые улучшения: улучшенное программирование (более точная генерация кода, лучшее следование сложным спецификациям), следование инструкциям (модель точнее соблюдает форматирование, ограничения и многошаговые задачи), математическое рассуждение (улучшена работа с вычислениями и алгоритмическими задачами) и вспоминание знаний (повышена точность при вопросах, требующих фактических знаний). Это обновление повысило практическую ценность Mercury 2 для задач, где ранее рекомендовалось использовать более дорогие frontier модели.
Цены и ограничения
Стоимость (на момент написания):
Бесплатный старт: 10 миллионов токенов при регистрации нового аккаунта без необходимости вводить платёжные данные. Этого хватит на несколько тысяч полноценных взаимодействий или для полноценного тестирования в продакшн-сценариях.
Базовый тариф -- Mercury 2 Chat и Mercury 2 Reasoning: входные токены $0.25 за 1M, выходные токены $0.75 за 1M. Это примерно в 4-6 раз дешевле GPT-4o на момент написания.
Mercury Coder Mini и Mercury Coder Small: аналогичное ценообразование. Корпоративные скидки и кастомные объёмные договоры доступны по запросу к команде Inception Labs.
Через AWS Bedrock и Azure: тарификация следует ценообразованию соответствующего облачного провайдера с незначительной платформенной надбавкой.
Ограничения модели:
Mercury 2 -- не универсальная замена топовым frontier моделям. По качеству сложного многошагового рассуждения, философских вопросов и глубокого анализа она уступает Claude Opus или GPT-4o. Диффузионная архитектура всё ещё развивается -- в очень длинных ответах со сложной структурой возможны артефакты согласованности.
Нишевые сценарии использования Mercury 2: API-интеграции с жёсткими требованиями к задержке, обработка больших объёмов однотипных запросов, первичная классификация данных перед передачей сложной задачи более мощной модели, реал-тайм чат-боты где мгновенность ответа важнее глубины.
Корпоративный и on-premise деплой: Inception Labs предлагает возможность развёртывания на собственной инфраструктуре для клиентов с требованиями к конфиденциальности данных. Нужно связаться с командой через форму на сайте inceptionlabs.ai отдельно.
Нужен ли VPN из России
Inception Labs -- американская компания, и доступ к их сервисам из России может быть нестабилен или заблокирован из-за санкций и геоблокировок. Разберём практическую ситуацию.
Для регистрации на inceptionlabs.ai и использования Playground скорее всего потребуется VPN с американским или европейским IP-адресом. Сайт иногда открывается и без VPN, но для стабильной работы и прохождения верификации рекомендуется VPN. Хорошо работают сервисы Mullvad, ProtonVPN или любой надёжный платный VPN-провайдер.
Для API-доступа из приложений: если ваш сервер находится вне России (DigitalOcean, Hetzner, AWS EU), запросы к Mercury 2 API пройдут без проблем. Если сервер в России или вы запускаете запросы со своего компьютера в России, потребуется прокси или VPN на уровне приложения или системы.
Альтернатива для стабильного доступа: AWS Bedrock -- если у вас есть аккаунт AWS и вы работаете через сервер в европейском или американском регионе, это может быть более стабильным вариантом доступа к Mercury 2 без прямых запросов на inceptionlabs.ai.
Для оплаты: Inception Labs принимает международные кредитные карты. Карты российских банков (Visa/MasterCard) не пройдут платёжный шлюз -- потребуется иностранная карта (например, казахстанская или армянская), виртуальная карта через сервисы вроде Capitalist, или оплата через AWS/Azure с их собственными методами оплаты.
Уточнение по версиям: Mercury 1 был запущен в феврале 2026 года, а Mercury 2 Chat вышел 12 мая 2026 года. Mercury Coder - это отдельная модель, оптимизированная для программирования, а не версия Mercury 2 Chat. На архитектуре Blackwell скорость генерации Mercury 2 достигает около 1009 токенов в секунду.
Уточнение хронологии продуктов Mercury 2
Mercury 2 -- это линейка, а не единственная модель. Важно понимать разницу между двумя продуктами:
Mercury 2 BASE -- базовая языковая модель, выпущенная 20 февраля 2026 года. Это фундамент всей линейки: диффузионная LLM с архитектурой параллельного декодирования, способная генерировать текст со скоростью около 1009 токенов в секунду на GPU NVIDIA Blackwell (B200). На GPU H100 предыдущего поколения скорость составляет около 700 токенов в секунду. Mercury 2 BASE доступна через API для разработчиков.
Mercury 2 Chat -- отдельный продукт на основе BASE, оптимизированный для диалога с пользователями. Запущен 12 мая 2026 года с интерфейсом чата на chat.inceptionlabs.ai. Chat добавляет к скорости BASE качество взаимодействия: следование инструкциям, безопасность, поддержание контекста диалога.
Если в предыдущих версиях этого гайда речь шла о запуске Mercury 2 "12 мая 2026 года" -- это дата запуска именно Mercury 2 Chat. BASE был доступен ещё с февраля.
Корпоративные клиенты: SearchBlox и другие
Inception Labs публично называет среди своих корпоративных партнёров компанию SearchBlox -- разработчика корпоративных поисковых систем. SearchBlox использует Mercury 2 BASE для обработки больших объёмов документов в реальном времени: скорость 1009 токенов в секунду на Blackwell позволяет индексировать и анализировать корпоративные базы знаний с задержкой, недостижимой для традиционных авторегрессивных моделей.
Корпоративный сценарий от SearchBlox -- показательный пример применения диффузионных LLM: задачи массовой обработки документов, где критична пропускная способность, а не только качество единичного ответа. В этом сегменте Mercury 2 выигрывает у GPT-5.5 и Claude Opus 4 по стоимости обработки единицы текста.
Уточнения и обновления: Бенчмарки скорости Mercury 2 измерены на GPU Blackwell (NVIDIA H200/B200), а не на H100. При сравнении с другими моделями важно учитывать поколение оборудования. В разработке: интеграция с AWS Bedrock для корпоративного доступа.
Mercury 2 vs DiffusionGemma: результаты сравнения. На ключевых бенчмарках Mercury 2 превосходит DiffusionGemma - конкурирующую диффузионную языковую модель от Google. По метрике скорости генерации (токены в секунду) Mercury 2 показывает более высокую пропускную способность. По качеству ответов на стандартных тестах кода и рассуждений Mercury 2 сохраняет лидерство среди диффузионных LLM. Это подтверждает позицию Inception Labs как технологического лидера в сегменте быстрых диффузионных языковых моделей.
Mercury Edit 2 и корпоративная доступность (июнь 2026). Inception Labs официально выпустила Mercury Edit 2 -- специализированную модель для редактирования существующего кода. В отличие от Mercury 2 Chat, которая генерирует код с нуля, Edit 2 работает напрямую с файлами: принимает оригинальный код и инструкцию, возвращает только изменённые участки. Скорость редактирования -- в 5-10 раз выше стандартных LLM благодаря диффузионной архитектуре. Параллельно Mercury 2 стала доступна через Azure AI Foundry и Amazon Bedrock -- это открывает корпоративные сценарии развёртывания с соблюдением требований по соответствию и безопасности данных для организаций, уже работающих в этих экосистемах.
Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceНе пропускайте важное
Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.
Как начать пользоваться Claude Agent SDK: фреймворк для создания AI-агентов
Claude Agent SDK - библиотека Anthropic для создания автономных AI-агентов на Python и TypeScript. Отличается от Claude Code тем, что предназначен для разработчиков, встраивающих агентную логику в собственные приложения.
Как начать пользоваться LongCat-2.0: открытый LLM от Meituan
LongCat-2.0 - крупнейшая открытая языковая модель с 1.6 триллиона параметров от Meituan. Выпущена под лицензией MIT 30 июня 2026 года, обучена на китайских чипах и незаметно возглавляла рейтинг OpenRouter под именем Owl Alpha.
North Mini Code 1.0: как запустить локальную модель для программирования
North Mini Code 1.0 от Cohere -- компактная модель для генерации кода, которая работает прямо на вашем компьютере через Ollama. Подходит для Python, JavaScript, Go и других языков.