MAI-Transcribe-1.5: как пользоваться лучшей AI-транскрибацией от Microsoft
MAI-Transcribe-1.5 -- самая точная модель речи в текст на рынке: расшифровывает час аудио за 15 секунд, поддерживает 43 языка и лидирует на независимом бенчмарке Artificial Analysis
Что это и для кого
MAI-Transcribe-1.5 -- модель перевода речи в текст от Microsoft, представленная в июне 2026 года на конференции Microsoft Build. Это вторая версия модели в рамках семейства MAI: первая поддерживала 25 языков, новая охватывает 43 и при этом стала и точнее, и существенно быстрее. По точности на независимом бенчмарке Artificial Analysis достигнута частота ошибок распознавания слов (Word Error Rate) в 2.4%, что соответствует третьему месту в мировом рейтинге среди всех коммерческих и открытых систем транскрибации, включая ElevenLabs Scribe V2, GPT-4o Transcribe и Whisper large-V3 от OpenAI.
Скорость работы -- отдельное достижение. Час аудиозаписи расшифровывается менее чем за 15 секунд, что соответствует коэффициенту ускорения около 276x по сравнению с реальным временем. Для пользователя это означает: загрузил часовую запись совещания, нажал кнопку -- через 15 секунд получил полный текст. Это в пять раз быстрее, чем Whisper large-V3 при сопоставимом качестве. Для архивной обработки сотен часов записей разница между минутами и секундами принципиальна.
Кому особенно пригодится эта модель. Менеджерам и командам, которые проводят много встреч: автоматическая расшифровка Zoom, Teams или Meet, за которой следует генерация конспекта и списка задач через Claude или GPT, экономит часы ручного труда каждую неделю. Журналистам и исследователям, работающим с интервью и лекциями. Разработчикам, строящим приложения с голосовым вводом или системами анализа колл-центров. Наконец, всем пользователям Microsoft Teams с подпиской Copilot: MAI-Transcribe-1.5 уже встроена в продукт и работает прямо сейчас без каких-либо дополнительных настроек с вашей стороны.
Ключевая отличительная черта -- устойчивость к реальным условиям записи. Модель специально обучалась на аудио с акцентами из разных регионов мира, фоновым шумом офиса, телефонным качеством и ситуациями перекрывающейся речи. Это принципиально отличает её от академических решений, показывающих хорошие результаты только на студийных записях. Дополнительный инструмент точности -- entity biasing: возможность передавать список специфических терминов, характерных для вашей области, что снижает ошибки на профессиональной лексике на 30% по данным тестов Microsoft.
Как зарегистрироваться / установить
MAI-Transcribe-1.5 доступна несколькими способами в зависимости от задач и технического уровня. Самый простой путь -- через Microsoft 365, самый гибкий -- через Azure API.
Способ 1: Microsoft Teams с Copilot (нулевой порог входа). Если у вас есть подписка Copilot for Microsoft 365, MAI-Transcribe-1.5 уже работает для вас. После каждой записанной встречи в Teams Copilot автоматически формирует расшифровку, краткое резюме и список задач с ответственными. Включите запись встречи кнопкой Record в Teams -- всё остальное происходит автоматически. Вам не нужно ничего устанавливать, настраивать или знать про Azure: обновление произошло «под капотом» при выходе новой версии модели.
Способ 2: Azure Speech Studio (без программирования). Зайдите на speech.microsoft.com, войдите через Microsoft-аккаунт (подойдет личный бесплатный). В разделе Speech to text выберите Batch transcription, нажмите Upload audio file, выберите файл в формате WAV, MP3 или OGG. Нажмите Run и дождитесь результата. Первые 5 часов аудио в месяц полностью бесплатны, карту вводить не обязательно для пробного использования. Это оптимальный способ, если вы хотите опробовать возможности без программирования и без финансовых обязательств.
Способ 3: Azure Speech SDK (для разработчиков). Создайте ресурс Azure AI Speech на portal.azure.com в разделе Create a resource. Выберите регион West Europe или North Europe для минимальной задержки из России. Скопируйте Subscription Key и Endpoint из раздела Keys and Endpoint. Установите SDK: pip install azure-cognitiveservices-speech для Python или npm install microsoft-cognitiveservices-speech-sdk для Node.js. Базовая интеграция: создайте SpeechConfig с ключом и регионом, AudioConfig с путём к файлу, вызовите recognize_once_async и получите объект с полями text, reason и confidence. При необходимости передайте список биасинг-фраз через PhraseListGrammar.
Способ 4: OpenRouter API. Зарегистрируйтесь на openrouter.ai через Google или GitHub, пополните баланс (минимально 5 долларов). Найдите модель microsoft/mai-transcribe-1.5 в каталоге. Запрос отправляется как HTTP POST с multipart/form-data: поле audio -- двоичный файл, поле language -- код языка или значение auto для автоопределения, опционально поле phrases -- JSON-массив биасинг-слов. Ответ -- JSON с полями text и segments. Этот способ удобен, если вы уже используете OpenRouter и хотите избежать настройки Azure-инфраструктуры.
Первый запуск -- что попробовать
После подключения выполните несколько практических тестов, которые дадут реальное представление о возможностях модели и помогут оценить, подходит ли она для ваших задач.
Тест 1: транскрибация рабочей встречи. Возьмите запись реального рабочего звонка или совещания -- достаточно 5-10 минут. Загрузите в Azure Speech Studio и запустите транскрибацию с настройками по умолчанию, без какого-либо списка терминов. Оцените точность передачи имен участников, числовых данных и профессиональных терминов. Для сравнения запустите тот же файл через встроенную транскрибацию Zoom, Google Meet или Otter.ai -- разница в точности будет показательна.
Тест 2: многоязычное аудио с Auto Detect Language. Если у вас есть запись, где говорят на нескольких языках -- распространённая ситуация для международных команд -- включите режим автоматического определения языка. MAI-Transcribe-1.5 определяет язык каждого фрагмента в рамках 43 поддерживаемых и переключается между ними без ручного указания. Протестируйте на аудио с переключением между русским и английским.
Тест 3: сравнение с entity biasing и без него. Подготовьте список из 15-20 терминов, характерных для вашей профессиональной области -- названия продуктов, имена клиентов, отраслевые аббревиатуры. Транскрибируйте один и тот же фрагмент аудио дважды: без списка и с ним. Разница в точности распознавания редких слов должна быть заметна сразу. Особенно это актуально для медицины, юридической сферы, финансов и технических отраслей.
Тест 4: скоростной тест на длинном файле. Загрузите запись длительностью 30-60 минут через Batch transcription и засеките время. Ожидаемое время обработки -- менее минуты для 30-минутного файла. Именно эта скорость открывает возможности для обработки больших архивов -- интервью, лекций, записей звонков -- в масштабах, недостижимых для более медленных инструментов.
Тест 5: полный AI-пайплайн. После получения расшифровки передайте текст в Claude или GPT с промптом: «Составь краткое резюме встречи в 5-7 пунктах, список принятых решений и список задач с ответственными и сроками». Это стандартный автоматизированный пайплайн для ведения протоколов совещаний без участия человека. В Azure можно настроить такую цепочку через Logic Apps или Functions без написания кода.
Ключевые фишки
Word Error Rate в 2.4% как реальный ориентир. 2-3 ошибки на 100 слов -- это уровень, при котором расшифровку можно использовать без ручной правки для большинства деловых задач. Для сравнения, стандартная транскрибация в Google Meet или Teams до обновления давала WER 5-15% в зависимости от условий записи и акцентов. На тестах FLEURS по 43 языкам MAI-Transcribe-1.5 опережает Whisper large-V3 от OpenAI, ElevenLabs Scribe V2 и GPT-4o Transcribe.
Скорость обработки: 276x быстрее реального времени. Это открывает два класса применений, недоступных медленным инструментам. Первый -- квазиреальное время: расшифровка готова раньше, чем успел закончиться звонок. Второй -- массовая обработка архивов: тысячи часов записей обрабатываются за часы, а не недели. Для компаний, работающих с большими объемами голосовых данных (контакт-центры, медицинские учреждения, медиакомпании), это принципиальное изменение экономики процесса.
Entity biasing без дообучения. Список специфических терминов передается как runtime-параметр и снижает WER на профессиональной лексике на 30%. Для этого не нужно дообучать модель, собирать размеченные данные или ждать неделями. Максимум 500 фраз на один запрос. Механизм работает на уровне beam search декодирования: модель принудительно повышает вероятность слов из списка при неоднозначном акустическом сигнале.
Потоковая транскрибация для интерактивных приложений. Через Speech SDK поддерживается streaming-режим с низкой задержкой, подходящий для живых субтитров, голосовых интерфейсов и систем мониторинга звонков в реальном времени. Задержка несколько выше пакетного режима, но достаточно мала для большинства интерактивных применений -- порядка 200-400 миллисекунд на слово.
Диаризация -- разделение речи по спикерам. Как дополнительная API-опция доступна идентификация спикеров: каждая реплика в расшифровке помечается идентификатором говорящего. Это важно для расшифровки интервью с несколькими участниками, переговоров и групповых обсуждений, где нужно понимать, кто именно что сказал.
Встроенность в экосистему Microsoft 365. MAI-Transcribe-1.5 работает в Teams, Copilot for Microsoft 365, Dynamics 365 Contact Center и интегрируется в GitHub Copilot для голосовых запросов. Корпоративным пользователям этих продуктов улучшение качества транскрибации пришло автоматически с плановым обновлением.
Цены и ограничения
Все цены актуальны на момент написания статьи и могут быть изменены Microsoft. Актуальные тарифы всегда доступны на странице azure.microsoft.com/pricing/details/cognitive-services/speech-services/.
Бесплатный уровень Azure Speech: 5 часов аудио в месяц для стандартной транскрибации, бессрочно для новых ресурсов. Регистрация требует карту для верификации личности, но деньги с неё не списываются при использовании в рамках бесплатного уровня. Для личного использования и тестирования интеграций этого объема обычно достаточно.
Платный уровень: от 0.36 доллара за час аудио для стандартной пакетной транскрибации на момент написания. Streaming-режим тарифицируется за минуту активного соединения. Entity biasing добавляет небольшую надбавку. При больших объемах действуют скидки за зарезервированные мощности (Committed Use Discounts).
Copilot for Microsoft 365: от 30 долларов на пользователя в месяц -- транскрибация Teams-встреч полностью включена без отдельной оплаты за MAI-Transcribe.
Технические ограничения: максимальный размер файла для пакетной обработки -- 300 МБ или 4 часа за один запрос. Поддерживаемые форматы: WAV, MP3, OGG, FLAC, MP4 (аудиодорожка). Максимальное число биасинг-фраз -- 500 на запрос. Диаризация доступна как опция с отдельным тарифом. Для файлов длиннее 4 часов нужно разбивать на части перед загрузкой.
Нужен ли VPN из России
Azure Speech Service технически доступен из России без VPN: Microsoft не вводила региональных блокировок для API-сервисов. Azure Speech Studio (speech.microsoft.com) открывается без VPN из российских IP-адресов, что позволяет тестировать транскрибацию прямо в браузере без настройки программного окружения. API-запросы к Speech SDK также проходят без VPN при наличии действующего ключа.
Выбор региона Azure влияет на задержку: West Europe и North Europe дают наименьшее время отклика из России -- обычно 50-80 миллисекунд. Регионы в США будут ощутимо медленнее, что критично для streaming-режима. Проверить задержку заранее можно через инструмент latency.azure.com.
Оплата Azure требует иностранной банковской карты: Visa или Mastercard, выпущенная за пределами России. Российские карты не принимаются. Варианты решения: карта зарубежного банка (открывается дистанционно через ряд сервисов для релокантов), корпоративный Azure-аккаунт через партнёра Microsoft, или доступ через OpenRouter с оплатой криптовалютой -- USDC и ETH поддерживаются. Бесплатный уровень в 5 часов в месяц требует карту только для верификации, без реального списания средств.
Для пользователей Microsoft 365 с Copilot дополнительных действий не требуется: оплата подписки 365 уже включает транскрибацию на базе MAI-Transcribe-1.5. Если ваша компания работает с Microsoft через российского реселлера, уточните актуальный статус доступности Copilot-функционала непосредственно у партнёра.
Microsoft Foundry API. MAI-Transcribe-1.5 доступна через Microsoft Foundry API -- платформу для корпоративного развёртывания AI-моделей Microsoft. Это предоставляет возможность интеграции транскрибации в корпоративные системы с корпоративными гарантиями SLA. Стоимость доступа через Foundry API -- на момент написания, актуальные тарифы на foundry.microsoft.com.
Keyword biasing для редких слов. Функция позволяет передать модели список специфических терминов -- имена, медицинские термины, отраслевой жаргон, аббревиатуры -- и модель будет приоритизировать их распознавание. Это особенно полезно для транскрибации медицинских консультаций, юридических заседаний или технических обсуждений, где стандартная модель часто ошибается на профессиональной терминологии.
Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceНе пропускайте важное
Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.
Как начать пользоваться CodeRabbit: AI-ревью кода прямо в GitHub и GitLab
Гайд по CodeRabbit -- самому популярному AI-инструменту для автоматического ревью кода. 2 миллиона репозиториев, поддержка GitHub, GitLab, Azure DevOps и Bitbucket. Бесплатно для open-source проектов.
Как начать пользоваться Vidu: AI-генератор видео из текста и фото
Полный гайд по Vidu -- китайскому AI-сервису для создания видео. Бесплатный тариф, три режима генерации: из текста, из фото и по референсу. Никакой установки -- работает в браузере.
Как начать пользоваться Cline: автономный AI-агент для кода прямо в VS Code
Полный гайд по Cline -- open-source AI-агенту для VS Code с 5 миллионами установок. Работает с любой моделью, редактирует файлы, выполняет команды в терминале, открывает браузер. Apache 2.0, bring-your-own-key.