Qwen3-Omni от Alibaba: мультимодальная модель на 119 языках

Alibaba выпустила модель, которая понимает текст, изображения, аудио и видео, а затем отвечает голосом в реальном времени — и всё это под открытой лицензией Apache 2.0.

Aravana·2026-03-24·1 мин

Qwen3-Omni — это не просто очередная большая языковая модель. Это нативно омни-модальная система от команды Alibaba Cloud, способная одновременно обрабатывать текст, изображения, аудио и видео, а на выходе — генерировать и текст, и речь в реальном времени. Поддержка 119 языков для текста, 19 языков для голосового ввода и 10 языков для голосового вывода делает её одной из самых полиглотических моделей в истории.

Архитектура Thinker-Talker разделяет обязанности: Thinker генерирует текстовые ответы, Talker превращает их в потоковую речь с задержкой всего 234 миллисекунды. Это быстрее, чем пауза в нормальном разговоре между людьми. Модель заняла первое место на 32 открытых бенчмарках и обошла закрытые модели, включая Gemini 2.5 Pro и GPT-4o-Transcribe.

Ключевое преимущество — открытая лицензия Apache 2.0. Любая компания может взять Qwen3-Omni, развернуть у себя, дообучить под свои задачи и коммерциализировать без ограничений. В мире, где OpenAI и Google берут за API десятки тысяч долларов в месяц, это радикальная альтернатива. Модель доступна через chat.qwen.ai, Hugging Face и ModelScope.

Для бизнеса Qwen3-Omni открывает конкретные сценарии: мультиязычные колл-центры без живых операторов, анализ видеоконтента в реальном времени, голосовые интерфейсы для IoT-устройств. Alibaba уже интегрирует модель в свою облачную платформу, а китайские стартапы массово строят продукты поверх Qwen. Если в 2025 году открытый AI был «почти как закрытый», то в 2026-м он стал лучше — по крайней мере, по бенчмаркам.

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

Тип материала: research

Поделиться:Telegram X LinkedIn

Как вам материал?

Daily Digest — 8 мая 2026

Anthropic платит Akamai $1,8 млрд за вычислительные мощности. NVIDIA вкладывается в дата-центры партнёра на 5 ГВт. Cloudflare уволила 1 100 сотрудников при рекордной выручке. SoftBank срезал кредит под акции OpenAI с $10 до $6 млрд.

2026-05-08·5 мин

AI·Срочное

OpenAI выкатил голос, который думает на лету и переводит за $0,034 в минуту

Три новые realtime-модели OpenAI: голосовой агент с reasoning GPT-5, перевод на 13 языков и стриминговая расшифровка — по тарифам колл-центра.

2026-05-08·1 мин

AI·Ежедневный обзор

Daily Digest - 6 мая 2026

Anthropic заходит в долю с Goldman Sachs. SpaceX просит льготу на завод дороже CHIPS Act. Nvidia скупает оптоволокно. DeepMind голосует за профсоюз против Пентагона.

2026-05-06·6 мин