Meituan выложила в открытый доступ мультимодальную модель LongCat-Next
Meituan открыла нативную мультимодальную модель с единым токен-пространством для текста, изображений и аудио
Тип материала: Пост из Telegram
🔴 Meituan выложила в открытый доступ мультимодальную модель LongCat-Next
Meituan опубликовала в open source нативную мультимодальную модель LongCat-Next, которая объединяет изображения, аудио и текст в единое пространство дискретных токенов. В отличие от традиционных подходов, где текст — основная модальность, а остальные — надстройки, LongCat-Next обрабатывает все модальности как равноправные «языки» через единый decoder-only backbone.
Архитектурный подход радикально отличается от конкурентов: вместо наращивания модулей поверх текстовой модели, LongCat-Next изначально проектировалась как единая система для всех типов данных.
Почему это важно: крупная китайская tech-компания открывает архитектурно новаторскую модель, усиливая тренд на демократизацию мультимодального AI.
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceНе пропускайте важное
Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.