Microsoft представила новую нейросеть по генерации видео по одному изображению

Microsoft представила новую нейросеть VASA-1, которая генерирует видео по одному изображению. Для генерации необходимо предоставить картинку и аудиодорожку, а далее алгоритм сгенерирует говорящего человека, имеющего естественную мимику и широкий спектр эмоций, сообщает корпорация у себя на сайте.

"Наша модель способна не только воспроизводить движения губ, синхронизированные со звуком, но и улавливать широкий спектр нюансов лица и естественных движений головы, которые способствуют восприятию аутентичности и живости", - указано на сайте Microsoft.

В представленном примере Microsoft заставила говорить, к примеру, Мону Лизу, а основным отличием нейросети создатели назвали цельную модель генерации движений головы и лицевой мимики. По их подсчетам, новая нейросеть значительно превосходит прежние аналоги. Видео доступно в разрешении 512 х 512 с частотой 40 кадров в секунду, имеется небольшая начальная задержка.

В компании уверены, что нейросеть поможет создать реалистичных аватаров, которые будут имитировать поведение человека во время разговора, однако пока не планируют выпускать продукт на рынок из-за опасений, что его могут использовать мошенники для создания дипфейк-видео.

Напомним, ранее Microsoft обновила программный код Chromium, благодаря чему появились новые параметры контрастности и гаммы в браузере Chrome, что, в свою очередь, позволило значительно улучшить рендеринг (процесс отрисовки символов шрифта в пиксельной сетке) шрифта и текста.

Подписывайтесь на наш Telegram-канал, чтобы быть в курсе всех новостей и событий Рунета.