DurIAN — это нейросеть, которая получает на вход текст и одновременно генерирует речь и видео к тексту. Внутри DurIAN авторегрессионная модель, которая соотносит текст с выходной аудиозаписью. DurIAN более устойчива к ошибкам, чем state-of-the-art модель Tacotron.
Ниже представлен пример работы нейросети. Модель сгенерировала фигуру, мимику женщины в 3D и аудиозапись ее разговора.
Ключевой компонент системы — это Duration Informed Attention Network (DurIAN). DurIAN состоит из авторегрессивной модели, которая соотносит текст с характеристиками аудиозаписи с помощью duration model. Этот подход отличается от end-to-end механизма внимания и избегает генерацию артефактов, которые генерируют текущие системы для синтеза речи. DurIAN также может быть использована для генерации выражений лица в высоком разрешении, которые могут быть синхронизированы с сгенерированной речью. При этом модель обучается синхронизировать речь и лицо без параллельных данных для обучения. Чтобы улучшить качество генерации речи, исследователи предлагают модификацию для WaveRNN — Multi-band WaveRNN. Модифицированная модель сокращает общую вычислительную сложность с 9.8 до 3.6 GFLOPS. Multi-band WaveRNN способна генерировать речь в 6 раз быстрее, чем стандартная WaveRNN, на одном CPU.
Также исследователи предлагают подход для контроля за эмоциями в аудио и на видео.
Архитектура модели
Структура модели состоит из 4-х блоков:
Skip кодировщик, который кодирует фонемы и ударения в тексте;
Alingment модель соотносит входные фонемы и части аудиозаписи, который отдаются на выходе;
Авторегрессивный декодировщик генерирует выходные аудиозапись речи и видеозапись лица по частям;
Post-net предсказывает остатки, которые не предсказал декодировщик
Результаты экспериментов
Чтобы сравнить работу DurIAN и Tacotron 2, исследователи проводят опрос. Участники опроса должны по пятибалльной шкале оценить реалистичность сгенерированных моделями голосов. Ниже видно, что результаты моделей схожи по реалистичности.
Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь. Чтобы писать комментарии Вам необходимо зарегистрироваться либо войти на сайт под своим именем.
» Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации. Зарегистрируйтесь на портале чтобы оставлять комментарии
Материалы предназначены только для ознакомления и обсуждения. Все права на публикации принадлежат их авторам и первоисточникам. Администрация сайта может не разделять мнения авторов и не несет ответственность за авторские материалы и перепечатку с других сайтов. Ресурс может содержать материалы 16+