Google представила Gemini 3.1 Flash Live: голосовой ИИ с человеческими интонациями

Компания Google официально запустила новую модель синтеза речи — Gemini 3.1 Flash Live. Главная особенность технологии заключается в её способности вести диалог в реальном времени с минимальными задержками, что делает общение с нейросетью практически неотличимым от разговора с живым человеком. Модель уже интегрирована в сервисы Gemini Live и доступна разработчикам через API.

Разработчики сделали упор на естественность ритма и интонаций. Gemini 3.1 Flash Live минимизирует паузы между репликами, приближаясь к порогу задержки в 300 мс — уровню, комфортному для человеческого восприятия. Система стала более устойчивой к внешним шумам и перебиваниям, а также научилась корректно обрабатывать паузы в речи пользователя и сложные многошаговые инструкции прямо в ходе разговора.

Для обеспечения безопасности и борьбы с дипфейками Google внедряет технологию скрытых водяных знаков SynthID. Эти метки не слышны человеческому уху, но позволяют специализированным алгоритмам мгновенно определить, что аудиозапись была сгенерирована искусственным интеллектом. В ближайшем будущем подобные модели могут полностью заменить традиционные системы в службах поддержки и персональных ассистентах.

Похожие записи

Кибер-дебют: Как искусственный интеллект отбирает главные роли у живых актеров

OpenClaw выпустил мобильный клиент, который превращает смартфон в пульт управления ИИ

Apple откажется от старших чипов M6 и ускорит выпуск ИИ-поколения M7 в 2027 году