Microsoft научил машину слушать — час аудио в текст за 15 секунд

MAI-Transcribe-1.5: 2,4% ошибок, 43 языка и скорость, которой нет у Gemini, GPT-4o и ElevenLabs.

Aravana··1 мин

🔴 Microsoft научил машину слушать: час аудио в текст за 15 секунд

Час разговора превращается в текст быстрее, чем вы успеете заварить чай. MAI-Transcribe-1.5, новая модель команды Superintelligence в Microsoft AI, обрабатывает 60 минут аудио менее чем за 15 секунд. Это в пять раз быстрее, чем Gemini 3.1, GPT-4o-Transcribe и ElevenLabs Scribe v2.

Цифры впечатляют не только скоростью. Модель показала 2,4% ошибок распознавания на ведущем бенчмарке Artificial Analysis (третье место в общем зачёте), но взяла первое место по точности на 43 языках в тесте FLEURS, как объявила Microsoft AI. Есть и фишка для бизнеса: можно подгрузить список ключевых слов (имена сотрудников, медицинские термины, внутренние сокращения), и точность на профильной лексике вырастет ещё на 30%. Модель уже встроена в Copilot, Teams, GitHub и Dynamics 365 Contact Centre.

Для предпринимателя это значит одно: расшифровка встреч, колл-центров и интервью перестаёт быть статьёй расходов. Минуты ожидания и расценки за часы превращаются в секунды и копейки. Если ваш продукт хоть как-то касается голоса, аудио или поддержки клиентов, пора пересчитывать юнит-экономику.

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

#нейросети #LLM #модели #Microsoft #OpenAI #BigTech #корпоративнаястратегия #ИИ #технологии #AravanaAI

Тип материала: Пост из Telegram

Поделиться:TelegramXLinkedIn
Как вам материал?

Хотите получать подобные материалы раньше?

Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.

Узнать про Intelligence

Не пропускайте важное

Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.

Похожие материалы

Google ужал Gemma 4 до 1 ГБ — теперь модель умещается в кармане

Новые QAT-варианты Gemma 4 запускаются на телефоне и обычном ноутбуке без потери качества — Google открыл их 5 июня.

·1 мин

NVIDIA выложила Nemotron 3.5 ASR — 40 языков в реальном времени за 80 миллисекунд

Новая опенсорс-модель распознавания речи от NVIDIA работает быстрее и охватывает русский, английский и ещё 38 языков одной нейросетью.

·1 мин

Google научил Gemini делать ваших цифровых двойников — для всех платных подписчиков

Функция аватара, построенная на модели Gemini Omni, открыта всем платным подписчикам Gemini — лицо и голос воссоздаются по короткой записи, в чатах клон вызывается командой @me.

·1 мин