Приложение Microsoft для искусственного интеллекта VASA-1 заставляет фотографии говорить и петь с правдоподобной мимикой

Команда исследователей искусственного интеллекта из Microsoft Research Asia разработала приложение искусственного интеллекта, которое преобразует неподвижное изображение человека и звуковую дорожку в анимацию, которая точно изображает человека, говорящего или поющего звуковую дорожку, с соответствующим выражением лица.

Команда опубликовала документ , описывающий, как они создавали приложение на сервере препринтов arXiv ; образцы видео доступны на странице исследовательского проекта.

Исследовательская группа стремилась анимировать неподвижные изображения разговоров и пения, используя любую предоставленную фонограмму, а также отображать правдоподобную мимику. Они явно преуспели в разработке VASA-1, системы искусственного интеллекта, которая превращает статические изображения, снятые камерой, нарисованные или раскрашенные, в то, что они описывают как «исключительно синхронизированную» анимацию.

Группа доказала эффективность своей системы, разместив короткие видеоклипы с результатами своих испытаний. В одном из мультфильмов Мона Лиза исполняет рэп-песню; в другом фотография женщины превратилась в пение, а в третьем рисунок мужчины произносит речь.

В каждой анимации выражение лица меняется вместе со словами, подчеркивая сказанное. Исследователи также отмечают, что, несмотря на реалистичность видео, более пристальное рассмотрение может выявить недостатки и свидетельства того, что они были созданы искусственно.

Исследовательская группа добилась своих результатов, обучая свое приложение тысячам изображений с самыми разными выражениями лиц . Они также отмечают, что в настоящее время система создает изображения размером 512х512 пикселей со скоростью 45 кадров в секунду. Кроме того, создание видео с использованием графического процессора Nvidia RTX 4090 настольного уровня занимало в среднем две минуты.

Исследовательская группа предполагает, что VASA-1 можно использовать для создания чрезвычайно реалистичных аватаров для игр или симуляций. В то же время они признают возможность злоупотреблений и поэтому не делают систему доступной для общего использования.

Приложение Microsoft для искусственного интеллекта VASA-1 заставляет фотографии говорить и петь с правдоподобной мимикой
Анализ
×
Microsoft
Сфера деятельности:Связь и ИТ
88