Режиссер Джош Кан создал видео с помощью ИИ о будущем Олимпийских игр.
Недавно завершились Олимпийские игры в Париже, а Паралимпиада продолжается. До Олимпийских игр 2028 года в Лос-Анджелесе еще несколько лет, но режиссер Джош Кан уже размышляет о будущем: каким могли бы быть Игры в Лос-Анджелесе в 3028 году?
Кан, известный своими работами для Леброна Джеймса и «Чикаго Буллз», заинтересовался темой будущих Олимпиад благодаря новым технологиям создания видео с использованием искусственного интеллекта. С появлением OpenAI's Sora и других инструментов, таких как Runway и Synthesia, создание видео стало доступным и быстрым. Эти инструменты позволяют генерировать видео высокого качества за считанные минуты, что значительно упрощает процесс по сравнению с традиционными методами, такими как CGI или анимация. Несмотря на то, что технологии пока не идеальны и возможны искажения — например, лишние пальцы на руках или исчезающие объекты, — у них огромный потенциал. Рекламные агентства, компании и создатели контента могут использовать их для быстрого и экономичного производства видео.
С помощью последней версии Runway Кан создал видео, представляющее, как могли бы выглядеть Олимпийские игры через тысячу лет. Для каждой сцены он вводил новый запрос, в результате чего получилось минутное видео с изображением футуристического Лос-Анджелеса, где уровень моря значительно поднялся, и город оказался на самом краю воды. Футбольный стадион разместился на крыше небоскреба, а купол с площадками для пляжного волейбола расположен прямо в гавани.
Видео, представленное в MIT Technology Review, скорее иллюстрирует возможности современных технологий ИИ, чем служит реальным планом развития города. Кан отметил, что Олимпийские игры всегда сопровождаются культурным повествованием города-хозяина, и Лос-Анджелес, известный своей культурой воображения и рассказов, мог бы стать прекрасным местом для Игр через тысячу лет. Он считает, что было бы интересно показать, как могли бы выглядеть Олимпийские игры в будущем.
Создание такого видео не обошлось без трудностей, что показывает как возможности, так и ограничения генеративных технологий. Кан не раскрыл конкретные запросы или количество попыток, необходимых для создания каждой сцены, но подчеркнул, что работа с ИИ требует терпения и многочисленных экспериментов. Одной из сложностей стало создание нестандартных архитектурных решений, таких как стадион над водой. Модели ИИ, обученные на ограниченных данных, не всегда способны воспроизвести такие необычные образы. Каждый новый кадр требует отдельного набора запросов, что затрудняет поддержание единого визуального стиля — модели пока плохо справляются с согласованием цветов, угла освещения и форм зданий. Отсутствие крупных планов людей также связано с тем, что ИИ пока не может достоверно воссоздавать детали человеческого лица и тела.
По мнению Кана, генеративные технологии на данном этапе лучше справляются с крупномасштабными объектами и панорамами, чем с детализированными сценами или человеческим взаимодействием. Поэтому он предполагает, что первые приложения генеративного видео в кино будут связаны с широкими планами ландшафтов или массовыми сценами.
Алекс Машрабов, основавший компанию Higgsfield AI после работы в Snap, также обращает внимание на текущие ограничения технологий. Он считает, что создание диалогов с помощью ИИ пока сложно, так как это требует точной передачи мимики и жестов. Многих создателей контента может отпугнуть необходимость многократного подбора запросов для получения нужного кадра. Машрабов отмечает, что в среднем только один из двадцати кадров получается удачным, а иногда требуются десятки попыток.
Несмотря на эти сложности, технологии уже находят применение. Машрабов указывает на рост использования генеративного видео для создания рекламы, особенно среди крупных компаний, таких как Temu. В Китае генераторы видео активно применяются для быстрой и дешевой рекламы продуктов. Даже если генеративное видео требует множества попыток, оно все равно значительно дешевле традиционных съемок с использованием реальных людей и оборудования. Машрабов считает, что такие примеры могут стать первыми случаями массового использования генеративного видео, по мере того как технологии будут совершенствоваться.
Согласно Машрабову, хотя путь развития генеративного ИИ будет долгим, уже сейчас можно найти области, в которых эта технология показывает хорошие результаты.