Компьютер научили реалистично имитировать человеческую речь

Компания Google DeepMind представила синтезатор речи WaveNet

Компания Google DeepMind представила программу WaveNet, способную имитировать голос человека с интонациями и дыханием, сообщает N+1. В основе работы программы лежит использование нейросетей, благодаря чему WaveNet может воспроизводить человеческие интонации даже без заданного текста.

Разработчики проверили программу с помощью «слепых тестов», в которых просили добровольцев оценить звучание голоса по шкале от 1 до 5. В результате сотни сравнительных испытаний WaveNet получила балл 4.21, когда как запись человеческого голоса получила 4.55. Таким образом, синтезатор речи сократил разрыв в баллах между компьютерным и человеческим голосом на 50%.

Анализируя звучание человеческого голоса, программа может воспроизводить его интонацию без заданного текста, имитируя дыхание и передавая особые движения губ. В данном случае WaveNet основывается на предсказаниях о том, как должен звучать каждый звук, когда он следует за определённым предыдущим. В ходе эксперимента программе удалось правдоподобно сгенерировать речь 109 людей.

WaveNet также способна создавать короткие композиции на фортепиано, анализируя произведения классической музыки. На данный момент технология требует больших вычислительных мощностей и не используется ни в одном из продуктов Google. Тем не менее разработчики не исключают возможности широкого применения программы в будущем.

Новости на «Меле»