В Google создали генератор речи, неотличимой от человеческой
Как пишет N+1, Google уже давно ведет разработки в области синтеза речи.
Программа Tacotron 2 от Google способна синтезировать речь, максимально приближенную к человеческой. Описание алгоритма, получившего название Tacotron 2, доступно на сайте ArXiv.org, а примеры его работы можно найти на сайте компании.
Алгоритм, основательно описанный в препринте на arXiv.org, реконструирует на основе сгенерированных из текста спектрограмм речь, максимально приближенную к человеческой.
Программа представляет собой две взаимосвязанные нейросети глубокого обучения. Эту операцию исполняет первая нейросеть, тогда как 2-ая нейросеть синтезирует на основе спектрограмм речь, пользуясь алгоритмами WaveNet. В Google разместили аудиозаписи с звуком системы на своем сайте. Например, она может при помощи интонации подчеркнуть слово, написанное с заглавной буквы. Это стало возможным благодаря применению технологии нейросетей. В результате синтезированная речь фактически не отличается от настоящей. В следствии этого средний балл, полученный образцами работы Tacotron 2, составил не менее 4,53, а записи настоящей речи получили 4,58 балла.
Пока Tacotron 2 способен озвучивать только британский текст и только дамским звуком. Для сравнения, человеческая речь была оценена теми же людьми в среднем в 4,58 балла, а прошлая версия Tacotron — в 4,001.
Поделитесь в вашей соцсети👇