Китайский StepFun выпустил голосовую модель, которая ловит интонации и не выпадает из роли
Шанхайская лаборатория StepFun представила StepAudio 2.5 Realtime — голосовую модель, которая слышит тон и паузы и держит выбранный персонаж в долгих диалогах.
🔴 Голосовой ИИ из Шанхая научился слышать настроение, а не только слова
Пока западные пользователи привыкают к голосовому ChatGPT, китайские лаборатории второго эшелона решают задачу, которую большие игроки обычно обходят стороной. Шанхайская StepFun выпустила StepAudio 2.5 Realtime — голосовую модель, которая ловит интонацию, темп и паузы собеседника и подстраивается под выбранную роль.
Главных технических новшества три. Первое — паралингвистика: модель оценивает невербальные сигналы и понимает, что собеседник раздражён или сомневается. На профильном бенчмарке — 82,18 балла. Второе — обучение на матрице из миллиона синтетических личностей, собранных алгоритмом из десяти тысяч исходных. Это даёт стабильность в долгих разговорах. Третье — отдельный RLHF, который не даёт модели «выпасть из роли», когда диалог уходит в сторону. Поддерживаются китайский и английский. Доступ — через WebSocket API на endpoint модели step-2.5-realtime.
Для российского предпринимателя это не «ещё одна голосовая модель», а сдвиг в зоне колл-центров и поддержки. Бот, который не просто отвечает по скрипту, а слышит, что клиент раздражён, и меняет тон, — это другой потолок конверсии и удержания. Если ваш бизнес держится на телефонных продажах, прицельно следите за такими релизами и тестируйте их у себя: китайские открытые модели обычно догоняют закрытые западные через 3–6 месяцев, а стоят и интегрируются заметно дешевле.
Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.
#нейросети #LLM #модели #агентыИИ #мультимодальность #Китай #ChatGPT #ИИ #технологии #AravanaAI
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceНе пропускайте важное
Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.
ByteDance открыла исходники Lance — одна модель делает картинки, видео и редактирует их
ByteDance выложила Lance — мультимодальную модель на 3 миллиарда параметров под Apache 2.0. Понимает и генерирует картинки и видео, редактирует одним промптом, работает локально на одной карте с 40 ГБ видеопамяти. Лучшие баллы среди унифицированных моделей по GenEval, VBench и GEdit-Bench.