Все материалы
·

Google выпустил новое поколение AI-голоса — теперь он умеет чувствовать

Google DeepMind выпустил Gemini 3.1 Flash TTS — модель синтеза речи нового поколения с выразительными интонациями и эмоциями, которая разворачивается в продуктах Google.

Aravana··1 мин

Тип материала: Пост из Telegram

Поделиться:TelegramXLinkedIn
Как вам материал?

🔴 Google выпустил новое поколение AI-голоса — теперь он умеет чувствовать

Google DeepMind выпустил Gemini 3.1 Flash TTS — новую модель синтеза речи, которая умеет передавать интонацию, паузы и эмоции. Не просто читать текст вслух — а говорить.

До сих пор AI-голос звучал как диктор на автоответчике: правильно, но мёртво. Flash TTS делает ставку на другое — на выразительность. Одно и то же предложение может звучать по-разному: с удивлением, теплотой или иронией, в зависимости от контекста.

Это меняет всё, что говорит вслух: ассистенты, аудиокниги, обучающие платформы, колл-центры. Разница между «роботом на горячей линии» и «человеком, который реально помог» — часто именно в интонации.

Модель разворачивается в продуктах Google.

Хотите получать подобные материалы раньше?

Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.

Узнать про Intelligence

Не пропускайте важное

Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.

Похожие материалы

OpenAI выпустила закрытую кибермодель — гонка с Mythos стала реальной

OpenAI выпустила закрытую кибербезопасность-модель для ограниченного круга партнёров — в прямой гонке с Mythos от Anthropic. Теперь обе крупнейшие AI-лаборатории одновременно создают инструменты для поиска уязвимостей в любом программном обеспечении.

·1 мин

Лучший в мире open source AI-программист теперь сделан в Китае

Zhipu AI выпустила GLM-5.1 — первую open source модель, занявшую #1 на SWE-Bench Pro. Китайский AI обогнал всех в кодинге.

·1 мин

Google выпустил Gemini 3.1 Ultra — модель читает, слышит и видит всё сразу

Google DeepMind запустила Gemini 3.1 Ultra с контекстом 2 миллиона токенов и нативной обработкой текста, аудио, видео и изображений без промежуточных шагов.

·1 мин