Сделать стартовой  |  Добавить в избранное  |  RSS 2.0  |  Информация авторамВерсия для смартфонов
           Telegram канал ОКО ПЛАНЕТЫ                Регистрация  |  Технические вопросы  |  Помощь  |  Статистика  |  Обратная связь
ОКО ПЛАНЕТЫ
Поиск по сайту:
Авиабилеты и отели
Регистрация на сайте
Авторизация

 
 
 
 
  Напомнить пароль?



Клеточные концентраты растений от производителя по лучшей цене


Навигация

Реклама

Важные темы


Анализ системной информации

» » » DurIAN: нейросеть генерирует видео и аудио к тексту

DurIAN: нейросеть генерирует видео и аудио к тексту


29-09-2019, 12:29 | Наука и техника / Новости науки и техники | разместил: Swarm | комментариев: (0) | просмотров: (1 130)

DurIAN — это нейросеть, которая получает на вход текст и одновременно генерирует речь и видео к тексту.  Внутри DurIAN авторегрессионная модель, которая соотносит текст с выходной аудиозаписью. DurIAN более устойчива к ошибкам, чем  state-of-the-art модель Tacotron. 

Ниже представлен пример работы нейросети. Модель сгенерировала фигуру, мимику женщины в 3D и аудиозапись ее разговора.

 

 

Ключевой компонент системы — это Duration Informed Attention Network (DurIAN). DurIAN состоит из авторегрессивной модели, которая соотносит текст с характеристиками аудиозаписи с помощью duration model. Этот подход отличается от end-to-end механизма внимания и избегает генерацию артефактов, которые генерируют текущие системы для синтеза речи. DurIAN также может быть использована для генерации выражений лица в высоком разрешении, которые могут быть синхронизированы с сгенерированной речью. При этом модель обучается синхронизировать речь и лицо без параллельных данных для обучения. Чтобы улучшить качество генерации речи, исследователи предлагают модификацию для WaveRNN — Multi-band WaveRNN. Модифицированная модель сокращает общую вычислительную сложность с 9.8 до 3.6 GFLOPS. Multi-band WaveRNN способна генерировать речь в 6 раз быстрее, чем стандартная WaveRNN, на одном CPU. 

Также исследователи предлагают подход для контроля за эмоциями в аудио и на видео.

Архитектура модели

Структура модели состоит из 4-х блоков: 

  1. Skip кодировщик, который кодирует фонемы и ударения в тексте;
  2. Alingment модель соотносит входные фонемы и части аудиозаписи, который отдаются на выходе;
  3. Авторегрессивный декодировщик генерирует выходные аудиозапись речи и видеозапись лица по частям;
  4.  Post-net предсказывает остатки, которые не предсказал декодировщик
Визуализация составных частей модели

Результаты экспериментов

Чтобы сравнить работу DurIAN и Tacotron 2, исследователи проводят опрос. Участники опроса должны по пятибалльной шкале оценить реалистичность сгенерированных моделями голосов. Ниже видно, что результаты моделей схожи по реалистичности. 

Среднее по результатам опроса. Оценки выставлялись по пятибалльной шкале, где 5 — прослушанную речь не отличить от человеческой

 

 



Рейтинг публикации:

Нравится0



Комментарии (0) | Распечатать

Добавить новость в:


 

 
Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь. Чтобы писать комментарии Вам необходимо зарегистрироваться либо войти на сайт под своим именем.





» Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации. Зарегистрируйтесь на портале чтобы оставлять комментарии
 


Новости по дням
«    Апрель 2024    »
ПнВтСрЧтПтСбВс
1234567
891011121314
15161718192021
22232425262728
2930 

Погода
Яндекс.Погода


Реклама

Опрос
Ваше мнение: Покуда территориально нужно денацифицировать Украину?




Реклама

Облако тегов
Акция: Пропаганда России, Америка настоящая, Арктика и Антарктика, Блокчейн и криптовалюты, Воспитание, Высшие ценности страны, Геополитика, Импортозамещение, ИнфоФронт, Кипр и кризис Европы, Кризис Белоруссии, Кризис Британии Brexit, Кризис Европы, Кризис США, Кризис Турции, Кризис Украины, Любимая Россия, НАТО, Навальный, Новости Украины, Оружие России, Остров Крым, Правильные ленты, Россия, Сделано в России, Ситуация в Сирии, Ситуация вокруг Ирана, Скажем НЕТ Ура-пЭтриотам, Скажем НЕТ хомячей рЭволюции, Служение России, Солнце, Трагедия Фукусимы Япония, Хроника эпидемии, видео, коронавирус, новости, политика, спецоперация, сша, украина

Показать все теги
Реклама

Популярные
статьи



Реклама одной строкой

    Главная страница  |  Регистрация  |  Сотрудничество  |  Статистика  |  Обратная связь  |  Реклама  |  Помощь порталу
    ©2003-2020 ОКО ПЛАНЕТЫ

    Материалы предназначены только для ознакомления и обсуждения. Все права на публикации принадлежат их авторам и первоисточникам.
    Администрация сайта может не разделять мнения авторов и не несет ответственность за авторские материалы и перепечатку с других сайтов. Ресурс может содержать материалы 16+


    Map