Китайский StepFun выпустил голосовую модель, которая ловит интонации и не выпадает из роли

Шанхайская лаборатория StepFun представила StepAudio 2.5 Realtime — голосовую модель, которая слышит тон и паузы и держит выбранный персонаж в долгих диалогах.

Aravana··1 мин

🔴 Голосовой ИИ из Шанхая научился слышать настроение, а не только слова

Пока западные пользователи привыкают к голосовому ChatGPT, китайские лаборатории второго эшелона решают задачу, которую большие игроки обычно обходят стороной. Шанхайская StepFun выпустила StepAudio 2.5 Realtime — голосовую модель, которая ловит интонацию, темп и паузы собеседника и подстраивается под выбранную роль.

Главных технических новшества три. Первое — паралингвистика: модель оценивает невербальные сигналы и понимает, что собеседник раздражён или сомневается. На профильном бенчмарке — 82,18 балла. Второе — обучение на матрице из миллиона синтетических личностей, собранных алгоритмом из десяти тысяч исходных. Это даёт стабильность в долгих разговорах. Третье — отдельный RLHF, который не даёт модели «выпасть из роли», когда диалог уходит в сторону. Поддерживаются китайский и английский. Доступ — через WebSocket API на endpoint модели step-2.5-realtime.

Для российского предпринимателя это не «ещё одна голосовая модель», а сдвиг в зоне колл-центров и поддержки. Бот, который не просто отвечает по скрипту, а слышит, что клиент раздражён, и меняет тон, — это другой потолок конверсии и удержания. Если ваш бизнес держится на телефонных продажах, прицельно следите за такими релизами и тестируйте их у себя: китайские открытые модели обычно догоняют закрытые западные через 3–6 месяцев, а стоят и интегрируются заметно дешевле.

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

#нейросети #LLM #модели #агентыИИ #мультимодальность #Китай #ChatGPT #ИИ #технологии #AravanaAI

Тип материала: Пост из Telegram

Поделиться:TelegramXLinkedIn
Как вам материал?

Хотите получать подобные материалы раньше?

Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.

Узнать про Intelligence

Не пропускайте важное

Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.

Похожие материалы

ByteDance открыла исходники Lance — одна модель делает картинки, видео и редактирует их

ByteDance выложила Lance — мультимодальную модель на 3 миллиарда параметров под Apache 2.0. Понимает и генерирует картинки и видео, редактирует одним промптом, работает локально на одной карте с 40 ГБ видеопамяти. Лучшие баллы среди унифицированных моделей по GenEval, VBench и GEdit-Bench.

·1 мин

Google DeepMind научил ИИ строить интерактивные миры поверх реальных улиц планеты

Google DeepMind подключил к своей world-модели Genie базу Street View. Waymo уже использует генератор для тренировки беспилотников на редких сценариях.

·1 мин

Следующая модель OpenAI уже готова — её держат в «безопасной комнате»

OpenAI завершила предобучение следующей frontier-модели (кодовое имя Spud) ещё 24 марта — сейчас она проходит проверку безопасности. Polymarket даёт 78% шанс на выход до конца апреля.

·1 мин