Microsoft создаёт ИИ для преобразования текста в реалистичную речь
Преобразование текста в речь становится все более популярным. Инженеры разных компаний пытаются сделать воспроизводимый голос неотличимым от реального. Microsoft и китайские исследователи нашли эффективный способ решения данной проблемы.
Был создан специальный ИИ, который способен генерировать реалистичную речь, используя всего 200 образцов голоса (примерно 20 минут) и соответствующие транскрипции. Система частично опирается на нейронные сети и трансформаторы, которые анализируют входные и выходные данные на лету. Это помогает эффективно обрабатывать даже длинные последовательности, например, сложные предложения.
Результаты все еще не идеальны — голос по-прежнему частично роботизирован. Однако разборчивость сказанного находится на уровне 99.84%. Исследователи продолжат проводить тесты для улучшения собственной системы.
- Blizzard и NetEase переподписали соглашение по выпуску игр в Китае
- Слух: О возвращении игр Blizzard на китайский рынок объявят 10 апреля
- СМИ: World of Warcraft вернется в Китай — Blizzard и NetEase снова сотрудничают