Китайский стартап представил инструмент, генерирующий видео по картинкам лучше, чем Sora от OpenAI

Пекинская компания Shengshu Technologyзаявила, что ее инструмент Vidu для преобразования текста в видео на основе искусственного интеллекта теперь может генерировать видеоролики, объединяя несколько изображений, тем самым составляя конкуренцию Sora от OpenAI.

Vidu позволяет пользователям по всему миру создавать 8-секундные клипы на основе письменных запросов, а его функция по созданию видео из двух фотографий профиля с обнимающимися людьми уже обрела популярность в TikTok.

По словам Shengshu, Vidu может объединять три изображения в видео. Например, если взять картинки с футболкой, человеком и мопедом, то появится видео с человеком в футболке, управляющим мопедом. В феврале OpenAI заявил, что его модель ИИ Sora тоже может генерировать одноминутные видео из текста, однако публичного представления функции еще не было.

Shengshu отмечает, что ее инновация заключается в способности объединять три отдельных изображения с визуальной согласованностью в видео, созданное искусственным интеллектом. «Мы очень рано определили (визуальную согласованность) как проблему и хотели решить ее как следует», — сказал Фань Бао, главный технический директор Shengshu.

Генератор видео на основе ИИ уже зарабатывает деньги на рекламодателях, аниматорах и других предприятиях, сказал соучредитель и генеральный директор Shengshu Цзяюй Тан (согласно переводу с китайского). Ежемесячные тарифы для одного клиента могут варьироваться от 100 тыс. юаней до 1 млн юаней (от $13,8 тыс. до $138, 7 тыс.).

Чтобы решить проблемы с авторскими правами, компания может подписать соглашение с художником, которое позволит ИИ имитировать его стиль живописи для рекламы. Тан также отметил, что не видел существенных судебных разбирательств вокруг использования изображений потребителями.

Он добавил, что Vidu не позволяет общественности создавать контент с использованием изображений знаменитостей или «чувствительных» лиц. Инструмент также запрещает использовать изображения с обнаженными людьми и сценами насилия. Что касается личных фотографий, Vidu уничтожает данные в соответствии с общими правилами защиты данных — глобальным стандартом.

Shengshu была основана в прошлом году при поддержке Baidu Ventures, дочерней компании Alibaba Ant Group, китайского стартапа Zhipu AI, Qiming Venture Partners и Пекина. Тан сообщил, что искусственный интеллект Vidu работает на арендованных облачных серверах в Китае и за рубежом.

В октябре Meta* (запрещена на территории РФ) объявила о запуске новой модели искусственного интеллекта под названием Movie Gen, способной создавать реалистичные видео- и аудиоклипы в ответ на запрос пользователя. В компании утверждают, что она также может соперничать с инструментами ведущих стартапов по созданию медиа, таких как OpenAI и ElevenLabs.