Новая структура может генерировать изображения, более соответствующие ожиданиям пользователя

Генеративные модели, искусственные нейронные сети, которые могут генерировать изображения или тексты, стали все более продвинутыми в последние годы. Эти модели также могут быть полезны для создания аннотированных изображений для обучения алгоритмов компьютерного зрения, которые предназначены для классификации изображений или содержащихся в них объектов.

Хотя многие генеративные модели, в частности генеративные состязательные сети (GAN), могут создавать синтетические изображения, которые напоминают те, что сняты камерами, надежный контроль содержания изображений, которые они производят, оказался сложной задачей. Во многих случаях изображения, созданные GAN, не соответствуют точным требованиям пользователей, что ограничивает их использование для различных приложений.

Исследователи из Сеульского национального университета науки и технологий недавно представили новую структуру генерации изображений , разработанную для включения контента, который пользователи хотели бы видеть в сгенерированных изображениях. Эта структура, представленная в статье, опубликованной на сервере препринтов arXiv , позволяет пользователям осуществлять больший контроль над процессом генерации изображений, создавая изображения, которые больше соответствуют тем, которые они себе представляли.

«Благодаря внедрению генеративных моделей был достигнут значительный прогресс в создании изображений», — пишут Джанг Х. Ле, Ань К. Нгуен и исследователи в своей статье.

«Однако точный контроль содержимого генерируемых изображений остается сложной задачей из-за их фундаментальной цели обучения. В данной статье рассматривается эта проблема путем предложения новой структуры генерации изображений, специально разработанной для включения желаемого содержимого в выходные изображения».

В отличие от многих существующих моделей для генерации изображений, структура, разработанная Ле, Нгуеном и их коллегами, может быть загружена в реальное изображение, которое затем используется для руководства процессом генерации изображения. Таким образом, содержание синтетических изображений, которые она генерирует, очень похоже на содержание эталонного изображения, даже если сами изображения отличаются.

«Фреймворк использует передовые методы кодирования, интегрируя подсети, называемые модулями слияния контента и частотного кодирования», — пишут Ле, Нгуен и их коллеги.

«Модуль кодирования частоты сначала фиксирует особенности и структуры эталонных изображений, фокусируясь исключительно на выбранных частотных компонентах. Затем модуль слияния контента генерирует вектор, направляющий контент, который инкапсулирует желаемые особенности контента».

Таким образом, структура, разработанная исследователями, имеет два отдельных компонента. Первый — это кодер, модуль, который извлекает связанные с контентом особенности из эталонного изображения, подаваемого в модель. Второй — это модуль слияния контента, который генерирует векторы для вновь сгенерированных изображений, которые руководствуются контентом, извлеченным из эталонного изображения.

«В процессе генерации изображений направляющие векторы контента из реальных изображений объединяются с проецируемыми шумовыми векторами», — пишут авторы. «Это обеспечивает создание генерируемых изображений, которые не только сохраняют единообразие контента направляющих изображений, но и демонстрируют разнообразные стилистические вариации».

Ле, Нгуен и их коллеги оценили производительность своей структуры в серии тестов, также сравнивая сгенерированные ею изображения с изображениями, созданными обычной моделью на основе GAN. Изображения, которые они использовали для обучения модели и в качестве ссылок для руководства процессом генерации изображений, были получены из различных наборов данных, включая наборы данных Flickr-Faces-High Quality, Animal Faces High Quality и Large-scale Scene Understanding.

Результаты этих первоначальных тестов были весьма многообещающими, поскольку было обнаружено, что новый фреймворк создает синтетические изображения, которые лучше соответствуют эталонному изображению с точки зрения содержания по сравнению с изображениями, созданными с помощью традиционной модели на основе GAN. В среднем изображения, созданные фреймворком, сохраняли 85% атрибутов эталонного изображения.

Это недавнее исследование может дать информацию о разработке моделей для генерации изображений, которые создают изображения, более соответствующие ожиданиям пользователей. Эти модели могут использоваться для составления тщательно подобранных наборов данных для обучения алгоритмов классификации изображений, но также могут быть интегрированы в платформы на базе ИИ для дизайнеров и других творческих профессионалов.

Новая структура может генерировать изображения, более соответствующие ожиданиям пользователя
Данные о правообладателе фото и видеоматериалов взяты с сайта «Android-Robot», подробнее в Правилах сервиса