Qwen 3.5 Omni: мультимодальный AI от Alibaba -- текст, голос, изображения и видео в реальном времени

Qwen 3.5 Omni -- новая мультимодальная модель Alibaba (март 2026), которая понимает текст, изображения, аудио и видео одновременно. Отвечает голосом с задержкой менее 300 мс -- быстрее большинства облачных сервисов.

2026-05-18·7 мин

Что это и для кого

Qwen 3.5 Omni -- это нативная мультимодальная AI-модель от китайской компании Alibaba, выпущенная в марте 2026 года. Слово 'omni' в названии означает 'всеобъемлющий': модель работает с текстом, изображениями, аудио и видео одновременно, в рамках одного запроса и одного контекста. Это принципиально отличает её от большинства AI-систем, где мультимодальность реализована как несколько отдельных моделей под одной крышей.

Главная техническая особенность Qwen 3.5 Omni -- скорость голосовых ответов. Задержка до первого токена при голосовом выводе составляет менее 300 миллисекунд. Это сопоставимо со скоростью живого разговора и значительно быстрее, чем у большинства конкурентов, включая первоначальный GPT-4o Voice Mode. Модель не транскрибирует аудио в текст, обрабатывает его языковой моделью и синтезирует речь -- весь процесс происходит в едином pipeline без промежуточных шагов.

Важно понять, чем Qwen 3.5 Omni отличается от уже существующего гайда по Qwen на этом сайте. Стандартный Qwen -- это текстовая языковая модель, чат-ассистент. Qwen 3.5 Omni -- это другой продукт с другими возможностями: нативная мультимодальность, real-time голосовой разговор, понимание видео в реальном времени. Использовать их нужно по-разному и для разных задач.

Кому Qwen 3.5 Omni полезна:

Тем, кто хочет разговаривать с AI голосом -- как с ChatGPT Voice Mode, но с более низкой задержкой и без подписки Plus. Qwen 3.5 Omni доступна через Qwen Chat с бесплатным уровнем.
Разработчикам, которые строят голосовые приложения -- модель доступна через Alibaba Cloud API и OpenRouter, что упрощает интеграцию.
Тем, кто работает с видео -- Qwen 3.5 Omni может анализировать видеоролики на лету: извлекать информацию из кадров, описывать происходящее, отвечать на вопросы о содержании.
Пользователям, которые по каким-то причинам не могут использовать ChatGPT или Claude -- Qwen менее ограничен геолокационными блокировками.

Как зарегистрироваться / установить

Qwen 3.5 Omni доступна через веб-интерфейс chat.qwenlm.ai и мобильное приложение Qwen для iOS и Android. Установки ничего сложного не требует.

Способ 1: Веб-интерфейс (qwen.alibaba.com или chat.qwenlm.ai)

Откройте сайт chat.qwenlm.ai в браузере. Нажмите Sign In / Register. Для регистрации потребуется email или аккаунт Google/Apple. Телефонный номер для верификации обычно не требуется при регистрации через email. После входа в верхней части интерфейса найдите выпадающий список моделей и выберите Qwen3.5-Omni. Если модель не отображается -- убедитесь, что вы авторизованы, так как некоторые новые модели доступны только зарегистрированным пользователям.

Способ 2: Мобильное приложение Qwen

Скачайте приложение Qwen из App Store (iOS) или Google Play (Android). Приложение называется 'Qwen' и опубликовано компанией Alibaba. Войдите в тот же аккаунт, что и на сайте. В настройках чата выберите модель Qwen3.5-Omni. Мобильное приложение удобнее для голосового общения: есть кнопка микрофона прямо в интерфейсе чата.

Способ 3: Через API (для разработчиков)

Модель доступна через Alibaba Cloud Model Studio (dashscope.aliyuncs.com). Зарегистрируйтесь в Alibaba Cloud, создайте API-ключ в разделе DashScope. Используйте Python SDK (dashscope) или прямые HTTP-запросы. Модель также доступна через OpenRouter под названием qwen/qwen3.5-omni, что удобно, если у вас уже есть аккаунт на OpenRouter.

Активация мультимодальных режимов:

По умолчанию интерфейс открывается в текстовом режиме. Для голосового разговора нажмите иконку микрофона -- браузер запросит доступ к микрофону, подтвердите. Для анализа изображений нажмите иконку скрепки или загрузки файла -- поддерживаются форматы JPG, PNG, WebP, GIF. Для анализа видео загрузите файл через ту же кнопку -- поддерживаются MP4, MOV и другие распространённые форматы.

Первый запуск -- что попробовать

Вот несколько конкретных экспериментов, которые помогут понять уникальность Qwen 3.5 Omni за первые 15 минут:

Эксперимент 1: Голосовой разговор в реальном времени

Включите голосовой режим (иконка микрофона). Скажите что-нибудь простое: 'Привет, как дела?' или 'Объясни мне, что такое квантовая запутанность'. Обратите внимание на задержку между концом вашей фразы и началом ответа. Для сравнения: стандартные голосовые ассистенты типа Siri или Google Assistant имеют задержку 500-800 мс, ChatGPT Voice Mode -- около 500 мс, Qwen 3.5 Omni -- менее 300 мс. Разница ощутима в живом разговоре.

Эксперимент 2: Анализ изображения с голосовым вопросом

Загрузите любую фотографию -- пейзаж, документ, график из Excel, скриншот. Спросите голосом: 'Что изображено на этой картинке?' или 'Проанализируй этот документ'. Qwen 3.5 Omni обрабатывает изображение и ваш голосовой запрос одновременно и отвечает голосом. Это нативная мультимодальность: один запрос -- несколько типов данных.

Эксперимент 3: Анализ видео

Запишите короткое видео на телефон или найдите существующий ролик (до 2-3 минут для начала). Загрузите его в чат. Задайте текстовый вопрос: 'Что происходит в этом видео?' или 'Перечисли все объекты, которые ты видишь'. Модель проанализирует видеоряд и аудиодорожку одновременно и даст комплексный ответ. Попробуйте также: 'На какой минуте видео появляется [объект]?'

Эксперимент 4: Смешанный запрос (текст + изображение + голос)

Загрузите изображение схемы или инфографики. Нажмите микрофон и спросите голосом: 'Объясни мне эту схему, как будто я школьник пятого класса'. Это демонстрация настоящей нативной мультимодальности: вход -- изображение плюс голос, выход -- голосовой ответ, обработка -- единый AI-pipeline без переключений между специализированными моделями.

Эксперимент 5: Многоязычный голосовой разговор

Попробуйте переключиться в середине разговора между языками: начните по-русски, продолжите по-английски. Qwen 3.5 Omni поддерживает 113 языков и диалектов в голосовом режиме и переключается без явной команды -- просто начинайте говорить на другом языке, модель адаптируется автоматически.

Ключевые фишки

1. Единый AI-pipeline для всех модальностей

Большинство 'мультимодальных' систем -- это несколько специализированных моделей, склеенных промежуточными слоями: отдельный Speech-to-Text, отдельный Vision Encoder, отдельный языковой движок, отдельный Text-to-Speech. Qwen 3.5 Omni обрабатывает все модальности в единой нейронной сети. Это означает: контекст между голосом, изображением и текстом не теряется, нет задержек на конвертацию, модель может делать выводы, опираясь на все типы входных данных одновременно.

2. Sub-300ms задержка голосового ответа

На момент выхода (март 2026) Qwen 3.5 Omni -- один из самых быстрых публично доступных голосовых AI. Задержка менее 300 мс до первого произнесённого токена делает разговор естественным. Для сравнения: порог, при котором люди начинают воспринимать задержку в разговоре как 'неловкую паузу', -- около 700-800 мс. Qwen 3.5 Omni уверенно ниже этого порога.

3. Нативное понимание видео

Qwen 3.5 Omni может анализировать видео не как набор разрозненных кадров, а как связный нарратив с аудиодорожкой. Практические применения: суммаризация записей совещаний, поиск конкретных моментов в длинных видео, анализ обучающих роликов с возможностью задавать вопросы по содержанию, проверка видеоинструкций.

4. Расширенный языковой охват

В отличие от многих западных моделей, Qwen сильна в азиатских языках: китайском (упрощённом и традиционном), японском, корейском, арабском. При этом качество работы на русском языке у Qwen 3.5 Omni заметно выше, чем у более ранних версий -- модель прошла специализированное дообучение на русскоязычных данных.

5. Открытый исходный код базовой модели

Веса базовой модели Qwen 3.5 Omni опубликованы на Hugging Face под открытой лицензией. Это позволяет разработчикам дообучать модель под конкретные задачи, запускать локально (при наличии достаточного GPU-ресурса) и использовать в коммерческих проектах без лицензионных ограничений. Детали лицензии уточняйте в карточке модели на Hugging Face.

6. Интеграция с экосистемой Alibaba Cloud

Через DashScope API Qwen 3.5 Omni напрямую интегрируется с другими сервисами Alibaba Cloud: объектным хранилищем OSS (для анализа хранящихся там видео и документов), базами данных, сервисами потоковой обработки данных. Для enterprise-сценариев это значительно упрощает архитектуру решений.

Цены и ограничения

Qwen 3.5 Omni доступна бесплатно через веб-интерфейс и мобильное приложение Qwen с ограничениями на количество запросов в день. Бесплатного уровня достаточно для личного использования и первоначального знакомства с возможностями.

Для API-доступа через Alibaba Cloud DashScope действуют отдельные тарифы, зависящие от типа входных данных: текстовые токены, аудио-секунды, видеокадры тарифицируются по-разному. Актуальные цены смотрите на dashscope.aliyuncs.com -- они меняются по мере масштабирования сервиса.

Через OpenRouter модель доступна с оплатой в криптовалюте или банковской картой по рыночным ценам -- обычно это удобнее для пользователей без аккаунта в Alibaba Cloud.

Текущие ограничения:

Максимальная длина видео для анализа ограничена -- в зависимости от плана, от нескольких минут до 30-60 минут. Длинные видео нужно нарезать на части.
Голосовой режим требует стабильного интернет-соединения. При высоких задержках (выше 200 мс) между вами и серверами преимущество low-latency теряется.
Качество распознавания русской речи немного уступает английской и китайской -- модель лучше всего оптимизирована для этих двух языков.
Возможности изображения в части генерации изображений (в отличие от анализа) у Qwen 3.5 Omni ограничены. Для создания картинок по-прежнему лучше использовать специализированные модели.

Нужен ли VPN из России

Qwen -- один из немногих крупных AI-сервисов, доступных из России без VPN. Сайт chat.qwenlm.ai и мобильное приложение Qwen работают напрямую, без блокировок со стороны Роскомнадзора и без геолокационных ограничений со стороны самого сервиса.

Это принципиальное преимущество перед ChatGPT, Claude и Gemini, которые официально недоступны для российских пользователей без VPN. Qwen как продукт китайской компании Alibaba не подпадает под западные санкционные ограничения и не блокирует российские IP-адреса на уровне политики компании. На практике это означает: вы можете зарегистрироваться, использовать и бесплатно, и платно, не беспокоясь о постоянном переключении VPN.

Регистрация через Google-аккаунт может потребовать VPN, если сам Google ограничен в вашей сети. В этом случае используйте регистрацию через email -- она работает полностью без VPN и занимает около двух минут.

Для API-доступа через Alibaba Cloud DashScope потребуется зарегистрировать аккаунт в Alibaba Cloud. Регистрация принимает российские данные, но для пополнения баланса могут понадобиться альтернативные платёжные методы -- китайская или международная карта, не попавшая под санкции. OpenRouter как альтернатива принимает криптовалюту (USDC, ETH) и некоторые международные карты, что делает его более удобным вариантом для российских разработчиков.

Скорость работы голосового режима из России может варьироваться в зависимости от нагрузки на серверы и маршрутизации трафика до дата-центров Alibaba в Юго-Восточной Азии. Если чувствуете высокую задержку в голосовом режиме -- попробуйте VPN с выходным узлом в Сингапуре или Гонконге (ближе к серверам Alibaba) для улучшения соединения.

Для пользователей, которым важна максимальная приватность: Alibaba -- китайская компания, на неё распространяется законодательство КНР о хранении и передаче данных. Если вы работаете с конфиденциальными корпоративными данными, это стоит учитывать при выборе между Qwen и локальными решениями типа Osaurus с Ollama.

Актуальные данные о производительности: по результатам аудиобенчмарков Qwen3.5-Omni превосходит Gemini 3.1 Pro. Официальный доступ к модели через платформу Qwen -- qwen.ai. Если вы использовали другой адрес для API-запросов, проверьте актуальную документацию на официальном сайте.

Новая возможность: аудиовизуальное вайб-кодирование. Qwen 3.5 Omni умеет генерировать рабочий код на основе видео и аудиовхода одновременно. Примеры: нарисованная от руки схема интерфейса превращается в работающий React-компонент; голосовое описание функции сопровождается видеозаписью экрана и преобразуется в готовый код.

Обновление мая 2026: Qwen 3.5 Omni теперь поддерживает 113 языков и диалектов (74 языка плюс 39 китайских диалектов). Доступны три варианта модели: Plus (256K контекст, максимальные возможности), Flash (баланс скорости и качества) и Light (минимальные затраты ресурсов, для мобильных сценариев). В голосовом режиме добавлено нативное распознавание интентов смены реплик: модель различает фоновые реакции (backchanneling - "угу", "да") и семантические прерывания, не обрывая ответ при backchannel-сигналах.

Аудио-бенчмарки (май 2026): Qwen3.5-Omni-Plus превзошёл Gemini 3.1 Pro по задачам обработки и понимания аудио в международных тестах. Это подтверждает лидерство модели в нативной мультимодальной работе со звуком, особенно при транскрипции, разграничении дикторов и анализе тонов речи.

Qwen3.5-LiveTranslate-Flash: синхронный перевод в реальном времени (июнь 2026)

В июне 2026 года Alibaba выпустила Qwen3.5-LiveTranslate-Flash -- специализированную модель для синхронного многоязычного перевода аудио и видео в реальном времени. В отличие от последовательного перевода (сначала транскрипция, потом перевод), LiveTranslate-Flash работает как настоящий синхронный переводчик: обрабатывает входящий звук с задержкой менее 1 секунды и выдаёт перевод одновременно с речью. Модель поддерживает одновременный ввод аудио и видео -- это позволяет учитывать жесты, мимику и контекст слайдов при переводе презентаций. Расширение поддержки диалектов (июнь 2026): добавлены 7 систем китайских диалектов (кантонский, шанхайский, хоккиен, хакка и другие) и более 20 региональных акцентов путунхуа. Это делает Qwen3.5 Omni наиболее полным инструментом для работы с китайским языком в его диалектном разнообразии.

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

Qwen 3.5 Omni-Finance и Omni-Medical: специализированные варианты (30 июня 2026)

30 июня 2026 года Alibaba выпустила два специализированных fine-tune варианта Qwen 3.5 Omni. Qwen3.5-Omni-Finance оптимизирован для финансовой отрасли: точная обработка финансовой отчётности (МСФО, РСБУ), анализ таблиц с числовыми данными, мультиязычные финансовые документы на русском, китайском и английском. Модель показывает улучшенные результаты на финансовых бенчмарках по сравнению с базовым Qwen 3.5 Omni. Qwen3.5-Omni-Medical предназначен для медицинских задач: понимание клинической документации, анализ медицинских изображений (рентген, МРТ - как вспомогательный инструмент), поддержка медицинских протоколов и терминологии на нескольких языках. Оба варианта доступны через Alibaba Cloud DashScope API с отдельными идентификаторами моделей; весовые коэффициенты опубликованы на Hugging Face под открытой лицензией. Для пользователей финансовой отрасли и здравоохранения специализированные варианты значительно точнее базовой модели в отраслевых задачах.

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

Поделиться:Telegram X LinkedIn

Как вам материал?

Теги:AI Assistants Qwen Alibaba мультимодальный AI голосовой AI Qwen Omni

Хотите получать подобные материалы раньше?

Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.

Узнать про Intelligence

Не пропускайте важное

Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.

Как начать пользоваться Agno: Python-фреймворк для создания AI-агентов

Agno (бывший phidata) - один из самых популярных Python-фреймворков для построения AI-агентов с 39k+ звезд на GitHub. Пошаговый гайд: установка, первый агент за 5 минут, мультиагентные команды и деплой в продакшн.

2026-07-14·8 мин

С чего начать·Гайд

Seedance 2.5: как начать пользоваться генератором видео от ByteDance

Seedance 2.5 от ByteDance генерирует нативное 30-секундное видео в один проход, принимает до 50 мультимодальных референсов и позволяет редактировать отдельные фрагменты без перегенерации всего клипа.

2026-07-13·7 мин

С чего начать·Гайд

ChatGPT Work: как начать пользоваться агентным рабочим столом OpenAI

9 июля 2026 OpenAI запустила ChatGPT Work -- агента, который берёт у вас целый проект, сам планирует шаги, работает часами в фоне и возвращает готовый документ, таблицу или презентацию.

2026-07-13·8 мин