Google разработал новый ИИ-инструмент, генерирующий изображения

МАУНТИН-ВЬЮ (ИА Реалист). Техногигант Google объявил о запуске нового творческого инструмента Whisk, который значительно отличается от традиционных графических редакторов.

Согласно информации, размещенной на блоге компании, Whisk позволяет пользователям загружать фотографии и получать в результате объединенное изображение, созданное искусственным интеллектом, даже без использования промтов (текстовых команд).

Пользователи могут просто загружать изображения предметов, обстановки или стиля, а Whisk объединит все в одно изображение.

Компания также пояснила, что Whisk задуман как забавная функция ИИ, а не как инструмент для профессиональной работы.

Крупные технологические компании, такие как Google и OpenAI, спешат выпустить потребительские продукты, которые могут продемонстрировать возможности использования новой привлекательной технологии, хотя скептики предупреждают, что отсутствие барьеров вокруг развития ИИ представляет опасность для человечества.

С тех пор как OpenAI изначально запустил свой инструмент для создания текста в изображение Dall-E в 2021 году, концепция созданных ИИ произведений искусства заполонила социальные сети и стала фокусом потребительских продуктов. Whisk от Google — это генератор изображений в изображения, основанный на популярной концепции генераторов текста в изображения.

Люди, использующие Whisk, могут «перемешивать» конечное изображение, редактируя свои входные данные и смешивая категории, чтобы создавать разные изображения, такие как плюшевая игрушка, эмалевая булавка или наклейка. Пользователи могут добавлять текст, если хотят указать определенные детали, но это не обязательно для создания изображения.

«Whisk разработан, чтобы позволить пользователям смешивать тему, сцену и стиль новыми и креативными способами, предлагая быстрое визуальное исследование вместо точного редактирования с точностью до пикселя», — отметил в своем заявлении директор по управлению продуктами в Google Labs Томас Илич.

Whisk от Google создан на основе генеративного искусственного интеллекта, разработанного DeepMind — лабораторией искусственного интеллекта, которую Google приобрела в 2014 году.

Whisk работает, используя базовое решение Google на базе искусственного интеллекта Gemini, представленное в декабре 2023 года, и объединяя его с Imagen 3 — новейшим генератором текста в изображения, выпущенным DeepMind в декабре.

Когда пользователи загружают свои изображения, Gemini генерирует подпись, которая передается в Imagen 3. Процесс фиксирует «сущность» объекта, а не его точную копию, что позволяет ремикшировать конечное изображение.

Например, сгенерированное изображение может иметь другой рост, прическу или тон кожи, чем запрашиваемые изображения, говорится в сообщении Google в блоге .

Недавно компания OpenAI также выпустила генератор текста в видео под названием Sora, что наглядно демонстрирует конкуренцию на рынке потребительских товаров.