Meituan выложила в открытый доступ мультимодальную модель LongCat-Next
Meituan открыла нативную мультимодальную модель с единым токен-пространством для текста, изображений и аудио
🔴 Meituan выложила в открытый доступ мультимодальную модель LongCat-Next
Meituan опубликовала в open source нативную мультимодальную модель LongCat-Next, которая объединяет изображения, аудио и текст в единое пространство дискретных токенов. В отличие от традиционных подходов, где текст — основная модальность, а остальные — надстройки, LongCat-Next обрабатывает все модальности как равноправные «языки» через единый decoder-only backbone.
Архитектурный подход радикально отличается от конкурентов: вместо наращивания модулей поверх текстовой модели, LongCat-Next изначально проектировалась как единая система для всех типов данных.
Почему это важно: крупная китайская tech-компания открывает архитектурно новаторскую модель, усиливая тренд на демократизацию мультимодального AI.
Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.
- Qwen3-Omni от Alibaba: мультимодальная модель на 119 языках
Meituan и Alibaba оба выпустили открытые мультимодальные модели. Два разных подхода к нативной мультимодальности от китайских компаний.
- Google выпустил Gemini 3.1 Ultra — модель читает, слышит и видит всё сразу
Оба выпустили нативно мультимодальные модели с текстом, звуком и изображениями. LongCat-Next открыт — Gemini Ultra закрыт. Сравнение подходов.
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceНе пропускайте важное
Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.