Google Deep Mind научился симулировать человеческую речь
Путешествуя по роликам на YouTube, вы могли наткнуться на видео, где речь воспроизведена компьютерным голосом. Его нельзя спутать с реальной речью человека — настолько он механический. Однако работа в этой области ведется неустанно и недавно Google совершила прорыв. Компания анонсировала новую программу синтетической речи WaveNet, которая питается от искусственной нейро-сети Deep Mind.
Компьютеры уже очень хорошо справляются с определением человеческой речи — данные системы лежат в основе всех цифровых помощников, в том числе и от Google. Но синтез искусственной речи — это совсем другой зверь, так как сейчас полагается на множество фрагментов, записанных предварительно. Тут и кроется главная проблема — фрагменты нельзя модифицировать для создания чего-то нового. Хотя данному способу есть альтернативы, их результат даже хуже.
WaveNet использует совершенно иной подход. Вместо того, чтобы просто анализировать аудио, система учится на фрагментах, подобно тому, как делает нейро-сеть DeepMind. Работая со скоростью в 16 тысяч сэмплов в секунду WaveNet генерирует свои собственные аудио-сэмплы. Более того, сеть использует алгоритмы прогнозирования, чтобы предсказывать, что нужно "сказать" дальше.
Послушать примеры можно на сайте.
- Выбросы парниковых газов Google выросли почти на 50% за пять лет из-за ИИ
- 13 августа Google представит Pixel 9 и Pixel Watch 3
- Google разрабатывает ИИ-чатботы на основе знаменитостей и инфлюенсеров