Google Deep Mind научился симулировать человеческую речь

Editorial

18:00, 12 сентября 2016

Путешествуя по роликам на YouTube, вы могли наткнуться на видео, где речь воспроизведена компьютерным голосом. Его нельзя спутать с реальной речью человека — настолько он механический. Однако работа в этой области ведется неустанно и недавно Google совершила прорыв. Компания анонсировала новую программу синтетической речи WaveNet, которая питается от искусственной нейро-сети Deep Mind.

Компьютеры уже очень хорошо справляются с определением человеческой речи — данные системы лежат в основе всех цифровых помощников, в том числе и от Google. Но синтез искусственной речи — это совсем другой зверь, так как сейчас полагается на множество фрагментов, записанных предварительно. Тут и кроется главная проблема — фрагменты нельзя модифицировать для создания чего-то нового. Хотя данному способу есть альтернативы, их результат даже хуже.

WaveNet использует совершенно иной подход. Вместо того, чтобы просто анализировать аудио, система учится на фрагментах, подобно тому, как делает нейро-сеть DeepMind. Работая со скоростью в 16 тысяч сэмплов в секунду WaveNet генерирует свои собственные аудио-сэмплы. Более того, сеть использует алгоритмы прогнозирования, чтобы предсказывать, что нужно "сказать" дальше.

Послушать примеры можно на сайте.

Больше статей на Shazoo