Китайский StepFun выпустил голосовую модель, которая ловит интонации и не выпадает из роли

Шанхайская лаборатория StepFun представила StepAudio 2.5 Realtime — голосовую модель, которая слышит тон и паузы и держит выбранный персонаж в долгих диалогах.

Aravana·2026-05-25·1 мин

🔴 Голосовой ИИ из Шанхая научился слышать настроение, а не только слова

Пока западные пользователи привыкают к голосовому ChatGPT, китайские лаборатории второго эшелона решают задачу, которую большие игроки обычно обходят стороной. Шанхайская StepFun выпустила StepAudio 2.5 Realtime — голосовую модель, которая ловит интонацию, темп и паузы собеседника и подстраивается под выбранную роль.

Главных технических новшества три. Первое — паралингвистика: модель оценивает невербальные сигналы и понимает, что собеседник раздражён или сомневается. На профильном бенчмарке — 82,18 балла. Второе — обучение на матрице из миллиона синтетических личностей, собранных алгоритмом из десяти тысяч исходных. Это даёт стабильность в долгих разговорах. Третье — отдельный RLHF, который не даёт модели «выпасть из роли», когда диалог уходит в сторону. Поддерживаются китайский и английский. Доступ — через WebSocket API на endpoint модели step-2.5-realtime.

Для российского предпринимателя это не «ещё одна голосовая модель», а сдвиг в зоне колл-центров и поддержки. Бот, который не просто отвечает по скрипту, а слышит, что клиент раздражён, и меняет тон, — это другой потолок конверсии и удержания. Если ваш бизнес держится на телефонных продажах, прицельно следите за такими релизами и тестируйте их у себя: китайские открытые модели обычно догоняют закрытые западные через 3–6 месяцев, а стоят и интегрируются заметно дешевле.

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

#нейросети #LLM #модели #агентыИИ #мультимодальность #Китай #ChatGPT #ИИ #технологии #AravanaAI

Тип материала: Пост из Telegram

Поделиться:Telegram X LinkedIn

Как вам материал?

Теги:нейросети LLM модели агентыИИ мультимодальность Китай ChatGPT OpenAI ИИ технологии AravanaAI

Хотите получать подобные материалы раньше?

Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.

Узнать про Intelligence

Не пропускайте важное

Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.

Anthropic запустил Sonnet 5: модель почти как Opus, но за $2 за миллион токенов

Anthropic выпустил Claude Sonnet 5 — модель для агентов, которая по бенчмаркам приближается к топовому Opus 4.8, но стоит заметно дешевле. Цена со старта: $2 за миллион входящих токенов и $10 за миллион исходящих до 31 августа. Anthropic делает ставку на массовое внедрение агентов.

2026-07-01·1 мин

AI/ML·Срочное

Google запустил Nano Banana 2 Lite: картинка за 4 секунды и $0,034

Google представил Nano Banana 2 Lite — самую быструю и самую дешёвую версию своего генератора картинок: $0,034 за изображение в 1K и 4 секунды на генерацию. Параллельно вышел Gemini Omni Flash для видео — $0,10 за секунду 10-секундного клипа.

2026-07-01·1 мин

AI/ML·Срочное

NVIDIA заходит в кабинет к врачу — вместе с Abridge и Eli Lilly

NVIDIA и Abridge строят отдельную AI-модель для клинических диалогов; Eli Lilly инвестирует в платформу, работающую с 300+ системами здравоохранения.

2026-06-19·1 мин