Все Insights
AI·

Qwen3-Omni от Alibaba: мультимодальная модель на 119 языках

Alibaba выпустила модель, которая понимает текст, изображения, аудио и видео, а затем отвечает голосом в реальном времени — и всё это под открытой лицензией Apache 2.0.

Aravana··4 мин

Тип материала: research

Поделиться:TelegramXLinkedIn
Как вам материал?

Qwen3-Omni — это не просто очередная большая языковая модель. Это нативно омни-модальная система от команды Alibaba Cloud, способная одновременно обрабатывать текст, изображения, аудио и видео, а на выходе — генерировать и текст, и речь в реальном времени. Поддержка 119 языков для текста, 19 языков для голосового ввода и 10 языков для голосового вывода делает её одной из самых полиглотических моделей в истории.

Архитектура Thinker-Talker разделяет обязанности: Thinker генерирует текстовые ответы, Talker превращает их в потоковую речь с задержкой всего 234 миллисекунды. Это быстрее, чем пауза в нормальном разговоре между людьми. Модель заняла первое место на 32 открытых бенчмарках и обошла закрытые модели, включая Gemini 2.5 Pro и GPT-4o-Transcribe.

Ключевое преимущество — открытая лицензия Apache 2.0. Любая компания может взять Qwen3-Omni, развернуть у себя, дообучить под свои задачи и коммерциализировать без ограничений. В мире, где OpenAI и Google берут за API десятки тысяч долларов в месяц, это радикальная альтернатива. Модель доступна через chat.qwen.ai, Hugging Face и ModelScope.

Для бизнеса Qwen3-Omni открывает конкретные сценарии: мультиязычные колл-центры без живых операторов, анализ видеоконтента в реальном времени, голосовые интерфейсы для IoT-устройств. Alibaba уже интегрирует модель в свою облачную платформу, а китайские стартапы массово строят продукты поверх Qwen. Если в 2025 году открытый AI был «почти как закрытый», то в 2026-м он стал лучше — по крайней мере, по бенчмаркам.

Хотите получать подобные материалы раньше?

Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.

Узнать про Intelligence

Не пропускайте важное

Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.

Похожие материалы

MiniMax M2.5: китайская модель уровня Claude Opus за долю цены

Шанхайский стартап MiniMax выпустил модель, которая на бенчмарках не уступает лучшим западным моделям — но стоит в 10 раз дешевле.

·3 мин

GPT-5.4: миллион токенов контекста и автономные задачи на уровне человека

OpenAI выпустила модель с контекстом в миллион токенов и нативным управлением компьютером — впервые AI-агент работает с вашим браузером и рабочим столом напрямую.

·4 мин

Luma Uni-1: модель, которая думает, пока создаёт изображения

Luma AI представила первую модель, объединяющую рассуждение и генерацию картинок в одной архитектуре — и она обходит Google и OpenAI на логических бенчмарках.

·3 мин