Microsoft научил машину слушать — час аудио в текст за 15 секунд
MAI-Transcribe-1.5: 2,4% ошибок, 43 языка и скорость, которой нет у Gemini, GPT-4o и ElevenLabs.
🔴 Microsoft научил машину слушать: час аудио в текст за 15 секунд
Час разговора превращается в текст быстрее, чем вы успеете заварить чай. MAI-Transcribe-1.5, новая модель команды Superintelligence в Microsoft AI, обрабатывает 60 минут аудио менее чем за 15 секунд. Это в пять раз быстрее, чем Gemini 3.1, GPT-4o-Transcribe и ElevenLabs Scribe v2.
Цифры впечатляют не только скоростью. Модель показала 2,4% ошибок распознавания на ведущем бенчмарке Artificial Analysis (третье место в общем зачёте), но взяла первое место по точности на 43 языках в тесте FLEURS, как объявила Microsoft AI. Есть и фишка для бизнеса: можно подгрузить список ключевых слов (имена сотрудников, медицинские термины, внутренние сокращения), и точность на профильной лексике вырастет ещё на 30%. Модель уже встроена в Copilot, Teams, GitHub и Dynamics 365 Contact Centre.
Для предпринимателя это значит одно: расшифровка встреч, колл-центров и интервью перестаёт быть статьёй расходов. Минуты ожидания и расценки за часы превращаются в секунды и копейки. Если ваш продукт хоть как-то касается голоса, аудио или поддержки клиентов, пора пересчитывать юнит-экономику.
Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.
#нейросети #LLM #модели #Microsoft #OpenAI #BigTech #корпоративнаястратегия #ИИ #технологии #AravanaAI
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceНе пропускайте важное
Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.