NVIDIA выложила Nemotron 3.5 ASR — 40 языков в реальном времени за 80 миллисекунд
Новая опенсорс-модель распознавания речи от NVIDIA работает быстрее и охватывает русский, английский и ещё 38 языков одной нейросетью.
🔴 NVIDIA выложила Nemotron 3.5 ASR — 40 языков в реальном времени за 80 миллисекунд
Если вы делаете голосового бота, синхронный перевод или субтитры — Whisper от OpenAI больше не безальтернативен. NVIDIA выпустила Nemotron 3.5 ASR — модель распознавания речи на 600 миллионов параметров, которая выдаёт расшифровку потоком с задержкой от 80 миллисекунд до 1,12 секунды. На той же видеокарте H100 она одновременно обрабатывает в 17 раз больше потоков, чем привычные «накопил-обработал» решения.
Главная фишка — одна модель на 40 языковых локалей: английский, испанский, немецкий, французский, арабский, японский, корейский, мандарин, хинди, тайский плюс ворох европейских. Никакого переключения моделей под разные языки. После тонкой настройки она улучшает точность распознавания на греческом почти на треть и на болгарском почти на столько же. Веса открыты по лицензии OpenMDW-1.1, модель уже лежит на HuggingFace и DeepInfra, версия для NVIDIA NIM выйдет позже в июне.
Для российского предпринимателя это значит одно: сборка колл-центра, голосового ассистента или синхронного переводчика стала на порядок дешевле. Не нужно платить за API на каждый поток, не нужно держать отдельную модель на каждый язык. Если ваш продукт хоть как-то слышит клиента — пора пересчитать юнит-экономику. И ещё раз, прежде чем подключать его к платному сервису распознавания.
Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.
#нейросети #модели #NVIDIA #GPU #чипы #агентыИИ #ИИ #технологии #AravanaAI
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceНе пропускайте важное
Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.