Ученые создали нейросеть, позволяющую менять речь человека в любом видео

Москва, 14 июня - "Вести.Экономика". Ученые из Стэнфорда вносят свой вклад в создание того, что, возможно, станет настоящим антиутопическим кошмаром.

Ученые Стэнфордского и Принстонского университетов, Института информатики общества Макса Планка и Adobe Research разработали компьютерную программу, которая позволяет редактировать текст, который произносит человек в кадре, и подстраивать его мимику к новому аудиоряду. Несмотря на то что нейросетевой алгоритм пока не умеет синтезировать звук (менять тембр голоса тоже нельзя), работу с этой технологией упростили настолько, что создание убедительных видеоподделок будет под силу практически любому.

Система пока не готова в качестве обычного приложения, однако Adobe — компания-разработчик Photoshop — уже создала прототип, в котором можно редактировать речь на видео так же легко, как фотографию.

Программное обеспечение использует машинное обучение и трехмерные модели лица цели для создания нового материала, который позволяет пользователю изменять, редактировать и удалять слова, которые выходят из уст человека на видео, просто вводя новый текст. Чтобы создать реалистичные видеофейки, система находит произносимые человеком фонемы (минимальные единицы звукового строя, из которых состоят слова), а затем сопоставили их с виземами — выражениями губ и лица, соответствующими определенному звуку. Когда меняется текст, произносимый человеком на видео, система объединяет эти данные — фонемы, виземы и лицевую 3D-модель — и генерирует новый визуальный ряд согласно правкам.

Для анализа искусственному интеллекту требуется не менее 40 минут оригинального видео, где голова спикера будет занимать большую часть кадра и не будет перекрываться посторонними объектами.

Пока система не умеет подменять звук. Впрочем, такая технология уже есть у ученых из группы Facebook AI Research. Они разработали алгоритм MelNet, который синтезирует речь со свойственными конкретному человеку характеристиками. К примеру, он научился подражать голосу Билла Гейтса.

MelNet анализирует спектрограммы аудиодорожек обычных выступлений на TED Talks, подмечает особенности речи, присущие спикеру, и воспроизводит короткие реплики.

Как раз длиной реплик и ограничены возможности алгоритма. Короткие фразы он воспроизводит очень близко к оригиналу. Однако интонация человека меняется, когда он говорит на разные темы, с разным настроением, разной подачей. Подражать этому алгоритм пока не умеет, поэтому длинные предложения звучат искусственно.

Все подобные технологии могут привести к засилью deepfake-видео, которые делаются при помощи искусственного интеллекта, который использует фотографии реального человека и на их основе создает фейковый ролик.

Facebook недавно подвергалась критике за то, что отказалась заблокировать фейковое видео, на котором спикер палаты представителей Конгресса США Нэнси Пелоси выглядит пьяной (на самом деле видео было просто замедлено). Спустя какое-то время появилось фейковое видео с главой соцсети Марком Цукербергом. Его создали с использованием технологии VDR (Video Dialog Replacement) от CannyAI. На этом видео Цукерберг рассказывает о том, как он полностью контролирует украденные данные миллиарда людей, их секреты, их будущее. Видео создано на основе реального выступления Цукерберга по поводу вмешательства россиян в президентские выборы в США.

Deepfake-видео с Цукербергом было создан в рамках арт-проекта и демонстрируется в британском городе Шеффилд. Цель проекта - привлечь внимание к тому, как легко манипулировать сознанием людей при помощи соцсетей.
Подробнее: https://www.vestifinance.ru/articles/120874