Google представила Gemini 3.1 Flash Live: голосовой ИИ с человеческими интонациями

Компания Google официально запустила новую модель синтеза речи — Gemini 3.1 Flash Live. Главная особенность технологии заключается в её способности вести диалог в реальном времени с минимальными задержками, что делает общение с нейросетью практически неотличимым от разговора с живым человеком. Модель уже интегрирована в сервисы Gemini Live и доступна разработчикам через API.

Разработчики сделали упор на естественность ритма и интонаций. Gemini 3.1 Flash Live минимизирует паузы между репликами, приближаясь к порогу задержки в 300 мс — уровню, комфортному для человеческого восприятия. Система стала более устойчивой к внешним шумам и перебиваниям, а также научилась корректно обрабатывать паузы в речи пользователя и сложные многошаговые инструкции прямо в ходе разговора.

Для обеспечения безопасности и борьбы с дипфейками Google внедряет технологию скрытых водяных знаков SynthID. Эти метки не слышны человеческому уху, но позволяют специализированным алгоритмам мгновенно определить, что аудиозапись была сгенерирована искусственным интеллектом. В ближайшем будущем подобные модели могут полностью заменить традиционные системы в службах поддержки и персональных ассистентах.