Qwen3-Omni от Alibaba: мультимодальная модель на 119 языках
Alibaba выпустила модель, которая понимает текст, изображения, аудио и видео, а затем отвечает голосом в реальном времени — и всё это под открытой лицензией Apache 2.0.
Тип материала: research
Qwen3-Omni — это не просто очередная большая языковая модель. Это нативно омни-модальная система от команды Alibaba Cloud, способная одновременно обрабатывать текст, изображения, аудио и видео, а на выходе — генерировать и текст, и речь в реальном времени. Поддержка 119 языков для текста, 19 языков для голосового ввода и 10 языков для голосового вывода делает её одной из самых полиглотических моделей в истории.
Архитектура Thinker-Talker разделяет обязанности: Thinker генерирует текстовые ответы, Talker превращает их в потоковую речь с задержкой всего 234 миллисекунды. Это быстрее, чем пауза в нормальном разговоре между людьми. Модель заняла первое место на 32 открытых бенчмарках и обошла закрытые модели, включая Gemini 2.5 Pro и GPT-4o-Transcribe.
Ключевое преимущество — открытая лицензия Apache 2.0. Любая компания может взять Qwen3-Omni, развернуть у себя, дообучить под свои задачи и коммерциализировать без ограничений. В мире, где OpenAI и Google берут за API десятки тысяч долларов в месяц, это радикальная альтернатива. Модель доступна через chat.qwen.ai, Hugging Face и ModelScope.
Для бизнеса Qwen3-Omni открывает конкретные сценарии: мультиязычные колл-центры без живых операторов, анализ видеоконтента в реальном времени, голосовые интерфейсы для IoT-устройств. Alibaba уже интегрирует модель в свою облачную платформу, а китайские стартапы массово строят продукты поверх Qwen. Если в 2025 году открытый AI был «почти как закрытый», то в 2026-м он стал лучше — по крайней мере, по бенчмаркам.
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceНе пропускайте важное
Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.