Meituan выложила в открытый доступ мультимодальную модель LongCat-Next

Meituan открыла нативную мультимодальную модель с единым токен-пространством для текста, изображений и аудио

Aravana·2026-03-30·1 мин

🔴 Meituan выложила в открытый доступ мультимодальную модель LongCat-Next

Meituan опубликовала в open source нативную мультимодальную модель LongCat-Next, которая объединяет изображения, аудио и текст в единое пространство дискретных токенов. В отличие от традиционных подходов, где текст — основная модальность, а остальные — надстройки, LongCat-Next обрабатывает все модальности как равноправные «языки» через единый decoder-only backbone.

Архитектурный подход радикально отличается от конкурентов: вместо наращивания модулей поверх текстовой модели, LongCat-Next изначально проектировалась как единая система для всех типов данных.

Почему это важно: крупная китайская tech-компания открывает архитектурно новаторскую модель, усиливая тренд на демократизацию мультимодального AI.

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

Тип материала: Пост из Telegram

Поделиться:Telegram X LinkedIn

Как вам материал?

Мира Мурати показала первую модель — и она быстрее всех в реальном времени

Thinking Machines выпустила TML-Interaction-Small — модель с задержкой ответа 0,4 секунды, быстрее GPT-realtime и Gemini live.

2026-05-12·1 мин

AI·Срочное

Grok 4.3 пришёл за корпоративным рынком — пока вокруг говорили о Маске

xAI без громкой презентации выпустила Grok 4.3 — модель с окном в 2 миллиона токенов, видеоанализом и первым местом в корпоративных бенчмарках.

2026-05-12·1 мин

AI·Срочное

Google встроил агента в кнопку питания — Android теперь сам читает экран и кликает за вас

Google представил Gemini Intelligence для Android: агент читает экран по нажатию кнопки питания, сам бродит по сайтам, заполняет формы и строит виджеты по голосовому запросу.

2026-05-12·1 мин