Как начать пользоваться Mercury 2 -- первая диффузионная LLM от Inception Labs
Mercury 2 -- это революционная языковая модель на диффузионной архитектуре от Inception Labs: в 5 раз быстрее Claude Haiku, 128К контекст и цена $0.25 за миллион токенов. Рассказываем, как подключиться и начать работу.
Что это и для кого
Mercury 2 -- это языковая модель нового поколения от компании Inception Labs, запущенная 24 февраля 2026 года. В отличие от всех существующих LLM (ChatGPT, Claude, Gemini), которые генерируют текст побуквенно (токен за токеном), Mercury 2 использует диффузионную архитектуру: модель сначала создаёт грубый набросок всего ответа сразу, а затем параллельно уточняет его во всех местах одновременно. Это принципиально другой подход к генерации текста.
Результат: Mercury 2 работает в 5 раз быстрее, чем Claude Haiku (самая быстрая модель Anthropic на момент написания), и примерно в 10 раз быстрее GPT-4o Mini. На серверах NVIDIA H100 модель достигает 1109 токенов в секунду для версии Mercury Coder Mini и 737 токенов в секунду для Mercury Coder Small -- это рекордные показатели для коммерческих моделей.
Кому нужна Mercury 2: разработчикам, которые строят приложения с AI и сталкиваются с задержками; командам, запускающим агентские пайплайны где LLM вызывается десятки раз подряд; компаниям с высоким объёмом запросов, где каждые 100ms имеют значение. Mercury 2 -- не замена Claude или GPT-4 для сложных задач рассуждения, а специализированный инструмент для сценариев, где скорость критична: реал-тайм ассистенты, обработка документов в потоке, быстрые ответы в чат-ботах.
Модель поддерживает использование инструментов (function calling) и вывод в JSON, имеет 128K токенов контекстного окна и полностью совместима с OpenAI API -- то есть в большинстве случаев достаточно поменять одну строчку кода в существующем приложении.
Как зарегистрироваться и получить доступ
Inception Labs предлагает несколько способов начать работу с Mercury 2. Самый простой -- прямой доступ через их платформу.
Шаг 1. Создайте аккаунт на Inception Platform. Перейдите на сайт inceptionlabs.ai и нажмите кнопку Get Started или Sign Up. Регистрация бесплатна и занимает около минуты -- достаточно email и пароля или входа через Google-аккаунт.
Шаг 2. Получите API ключ. После входа в личный кабинет перейдите в раздел API Keys и нажмите Create New Key. Каждому новому аккаунту автоматически выдаётся 10 миллионов бесплатных токенов -- этого достаточно для нескольких недель активного использования или тысяч запросов для тестирования.
Шаг 3. Протестируйте в Playground. Inception Labs предоставляет бесплатный веб-интерфейс для тестирования. Здесь можно сразу почувствовать скорость модели -- ответы появляются почти мгновенно. Playground поддерживает как текстовую генерацию, так и режим кода.
Альтернативный путь: через AWS Bedrock. Если вы уже работаете в экосистеме Amazon Web Services, Mercury 2 доступна в AWS Bedrock Marketplace и Amazon SageMaker JumpStart. В Bedrock нужно открыть раздел Model Catalog, отфильтровать по провайдеру Inception, выбрать нужную модель Mercury и нажать Subscribe, затем Deploy. Это особенно удобно для корпоративных клиентов с существующей инфраструктурой AWS.
Через Microsoft Azure: Mercury 2 также доступна в Azure AI Foundry. Процесс аналогичен AWS -- через Marketplace найдите Inception Labs и выберите модель.
Первый запуск -- что попробовать
После получения API ключа самый быстрый способ начать -- использовать стандартный OpenAI Python SDK, изменив только endpoint и ключ. Никаких дополнительных библиотек не нужно.
Установите OpenAI SDK если ещё не установлен: pip install openai
Затем используйте следующий шаблон -- замените 'ваш_mercury_api_key' на ваш реальный ключ из личного кабинета Inception Labs, а base_url укажите как https://api.inceptionlabs.ai/v1. В поле model используйте значение 'mercury-2' для общего чата или 'mercury-coder-small' для задач с кодом.
Обратите внимание: если вы переключаетесь с GPT или Claude, достаточно заменить api_key и base_url -- всё остальное синтаксически идентично. Именно это делает миграцию такой простой.
Что попробовать в первую очередь:
Задача 1 -- быстрая классификация текста. Дайте Mercury 2 список из 50 коротких отзывов и попросите каждый классифицировать как позитивный, негативный или нейтральный. Вы заметите, что ответы появляются значительно быстрее, чем у конкурентов.
Задача 2 -- потоковая генерация. Mercury 2 поддерживает streaming так же, как и OpenAI API. Включите stream=True при вызове -- для реал-тайм чат-ботов это критически важно, так как пользователь видит ответ по мере его генерации.
Задача 3 -- структурированный JSON вывод. Попросите модель вернуть структурированные данные, например извлечь из текста названия продуктов, цены и даты. Mercury 2 поддерживает JSON mode через параметр response_format -- укажите тип как json_object.
Задача 4 -- написание кода. Переключитесь на mercury-coder-small или mercury-coder-mini и попросите модель написать простую функцию на Python или JavaScript. Оцените скорость: в реальных тестах эти версии показывают генерацию полноценной функции за менее чем 1 секунду.
Задача 5 -- сравнение с другими моделями. Отправьте один и тот же промпт в Mercury 2 и в Claude Haiku или GPT-4o Mini. Засеките время первого токена (Time to First Token) и скорость полного ответа. Разница будет заметна особенно на длинных ответах -- Mercury 2 заканчивает раньше, чем конкуренты генерируют первую треть.
Задача 6 -- агентский пайплайн. Создайте простой агент, который делает последовательные вызовы модели: сначала анализирует задачу, потом составляет план, потом выполняет каждый шаг. На таких цепочках из 5-10 вызовов Mercury 2 экономит секунды по сравнению с медленными моделями -- что критично для UX.
Ключевые фишки
Диффузионная архитектура. Это не просто маркетинговая фраза. Традиционные LLM генерируют текст слева направо, каждый следующий токен зависит от всех предыдущих -- это последовательный процесс. Mercury 2 работает иначе: сначала создаётся грубый черновик всего ответа, затем итеративно уточняется параллельно по всем позициям. Это позволяет использовать современные GPU намного эффективнее, так как нет жёсткой последовательности вычислений.
Рекордная скорость вывода. На практике это означает следующее: там, где Claude Haiku генерирует 150-200 токенов в секунду, Mercury Coder Mini выдаёт 1109 токенов в секунду на тех же серверах. Для агентских систем, где LLM вызывается 20-50 раз подряд, общее время выполнения задачи сокращается в разы. Inception Labs указывает, что это в 5 раз быстрее ближайших конкурентов при сопоставимом качестве вывода.
Полная совместимость с OpenAI API. Вы можете использовать Mercury 2 через AISuite, LiteLLM, LangChain и любые другие фреймворки, которые поддерживают OpenAI-совместимый интерфейс. Никакого переписывания кода -- смена одного endpoint и ключа.
Function Calling и JSON mode. Mercury 2 поддерживает вызов инструментов (tool use) в том же формате, что и OpenAI API. Модель может взаимодействовать с внешними API, базами данных и сервисами в рамках агентских сценариев.
Контекстное окно 128K токенов. Для большинства практических задач этого достаточно: суммаризация длинных документов, работа с большими кодовыми базами, анализ транскриптов встреч. Окно соответствует уровню Claude Haiku 3.5.
Несколько версий модели. Inception Labs предлагает линейку под разные задачи: Mercury Coder Mini (самая быстрая, 1109 ток/сек, для простых кодовых задач), Mercury Coder Small (737 ток/сек, немного умнее), Mercury 2 Chat (общего назначения), Mercury 2 Reasoning (с улучшенными возможностями рассуждения для сложных логических задач). Для разных задач выбирается подходящий баланс скорости и качества.
Экономичность. Стоимость значительно ниже, чем у frontier моделей -- при этом для задач классификации, извлечения данных и генерации кода качество сопоставимо с более дорогими аналогами.
Mercury Edit 2. Отдельная специализированная версия для редактирования существующего кода. Вместо того чтобы генерировать весь файл заново, Mercury Edit 2 работает с диффами -- вносит точечные изменения в нужные места. Это делает её особенно удобной для IDE-интеграций и code review инструментов.
Параллельная обработка нескольких запросов. Из-за архитектурных особенностей Mercury 2 особенно эффективна при batch-обработке. Если вашему приложению нужно одновременно обработать 100 коротких запросов, Mercury 2 справится с этим значительно быстрее за счёт более высокой пропускной способности на GPU. Для систем мониторинга, автоматической модерации контента или массовой аналитики это меняет экономику использования AI.
Поддержка через популярные AI-роутеры. Mercury 2 доступна через OpenRouter, Together AI и другие агрегаторы AI-моделей. Это удобно, если вы уже используете роутинг между несколькими моделями -- Mercury 2 можно добавить как быстрый и дешёвый вариант для задач, где скорость важнее глубины ответа.
Цены и ограничения
Стоимость (на момент написания):
Бесплатный старт: 10 миллионов токенов при регистрации нового аккаунта без необходимости вводить платёжные данные. Этого хватит на несколько тысяч полноценных взаимодействий или для полноценного тестирования в продакшн-сценариях.
Базовый тариф -- Mercury 2 Chat и Mercury 2 Reasoning: входные токены $0.25 за 1M, выходные токены $0.75 за 1M. Это примерно в 4-6 раз дешевле GPT-4o на момент написания.
Mercury Coder Mini и Mercury Coder Small: аналогичное ценообразование. Корпоративные скидки и кастомные объёмные договоры доступны по запросу к команде Inception Labs.
Через AWS Bedrock и Azure: тарификация следует ценообразованию соответствующего облачного провайдера с незначительной платформенной надбавкой.
Ограничения модели:
Mercury 2 -- не универсальная замена топовым frontier моделям. По качеству сложного многошагового рассуждения, философских вопросов и глубокого анализа она уступает Claude Opus или GPT-4o. Диффузионная архитектура всё ещё развивается -- в очень длинных ответах со сложной структурой возможны артефакты согласованности.
Нишевые сценарии использования Mercury 2: API-интеграции с жёсткими требованиями к задержке, обработка больших объёмов однотипных запросов, первичная классификация данных перед передачей сложной задачи более мощной модели, реал-тайм чат-боты где мгновенность ответа важнее глубины.
Корпоративный и on-premise деплой: Inception Labs предлагает возможность развёртывания на собственной инфраструктуре для клиентов с требованиями к конфиденциальности данных. Нужно связаться с командой через форму на сайте inceptionlabs.ai отдельно.
Нужен ли VPN из России
Inception Labs -- американская компания, и доступ к их сервисам из России может быть нестабилен или заблокирован из-за санкций и геоблокировок. Разберём практическую ситуацию.
Для регистрации на inceptionlabs.ai и использования Playground скорее всего потребуется VPN с американским или европейским IP-адресом. Сайт иногда открывается и без VPN, но для стабильной работы и прохождения верификации рекомендуется VPN. Хорошо работают сервисы Mullvad, ProtonVPN или любой надёжный платный VPN-провайдер.
Для API-доступа из приложений: если ваш сервер находится вне России (DigitalOcean, Hetzner, AWS EU), запросы к Mercury 2 API пройдут без проблем. Если сервер в России или вы запускаете запросы со своего компьютера в России, потребуется прокси или VPN на уровне приложения или системы.
Альтернатива для стабильного доступа: AWS Bedrock -- если у вас есть аккаунт AWS и вы работаете через сервер в европейском или американском регионе, это может быть более стабильным вариантом доступа к Mercury 2 без прямых запросов на inceptionlabs.ai.
Для оплаты: Inception Labs принимает международные кредитные карты. Карты российских банков (Visa/MasterCard) не пройдут платёжный шлюз -- потребуется иностранная карта (например, казахстанская или армянская), виртуальная карта через сервисы вроде Capitalist, или оплата через AWS/Azure с их собственными методами оплаты.
Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceНе пропускайте важное
Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.
Как начать пользоваться Google ADK -- фреймворк для создания AI-агентов
Google ADK (Agent Development Kit) -- это официальный open-source фреймворк от Google для создания AI-агентов и мультиагентных систем. Работает с любыми моделями, бесплатный, поддерживает Python, Java и Go. Рассказываем, как написать первого агента.
Osaurus: запускаем локальные и облачные AI-модели на Mac
Osaurus -- нативное Mac-приложение с открытым кодом, которое объединяет Ollama, LM Studio, OpenAI, Anthropic и другие сервисы в единый интерфейс. Полная приватность данных, поддержка Apple Silicon.
Krea 2: первая собственная AI-модель для генерации картинок с уникальным style transfer
Krea 2 -- первая foundation-модель от Krea AI, запущенная в мае 2026 года. Специализируется на эстетике и стиле: от плёночной фотографии до студийных кадров. Разбираемся, как начать и чем она отличается от Midjourney и FLUX.