Компьютер научили реалистично имитировать человеческую речь

Компания Google DeepMind представила синтезатор речи WaveNet

Компьютер научили реалистично имитировать человеческую речь

Компания Google DeepMind представила синтезатор речи WaveNet

Компания Google DeepMind представила программу WaveNet, способную имитировать голос человека с интонациями и дыханием, сообщает N+1. В основе работы программы лежит использование нейросетей, благодаря чему WaveNet может воспроизводить человеческие интонации даже без заданного текста.

Разработчики проверили программу с помощью «слепых тестов», в которых просили добровольцев оценить звучание голоса по шкале от 1 до 5. В результате сотни сравнительных испытаний WaveNet получила балл 4.21, когда как запись человеческого голоса получила 4.55. Таким образом, синтезатор речи сократил разрыв в баллах между компьютерным и человеческим голосом на 50%.

Анализируя звучание человеческого голоса, программа может воспроизводить его интонацию без заданного текста, имитируя дыхание и передавая особые движения губ. В данном случае WaveNet основывается на предсказаниях о том, как должен звучать каждый звук, когда он следует за определённым предыдущим. В ходе эксперимента программе удалось правдоподобно сгенерировать речь 109 людей.

WaveNet также способна создавать короткие композиции на фортепиано, анализируя произведения классической музыки. На данный момент технология требует больших вычислительных мощностей и не используется ни в одном из продуктов Google. Тем не менее разработчики не исключают возможности широкого применения программы в будущем.