От Ван Гога до AI: магистрант СПбГУТ разработал нейро-образы университета

Пять всемирно известных художников и одна нейросеть помогли нашему магистранту Георгию Урванцеву сгенерировать уникальные образы Санкт-Петербургского университета телекоммуникаций. Работы представлены в главном корпусе СПбГУТ на выставке в рамках Недели иностранных языков.

Георгий Урванцев учится в институте магистратуры на кафедре ИКД факультета ИСиТ. Он рассказал, как проходила работа над созданием изображений.

«Мне написала старший преподаватель кафедры ИНиРЯ Александра Павловна Маринская и предложила участвовать в выставке. Её идея заключалась в том, чтобы изобразить “Бонч” глазами художников прошлого, используя нейросети. Осенью 2022 года мы в соавторстве подготовили статью для форума BAFO о перспективах применениях нейросетевых генераторов изображений («Вестник факультета СЦТ», 2022, с. 134). Тем летом в открытом доступе появились MidJourney и Stable Diffusion, и на эту сферу многие люди обратили внимание», – отметил он.

Для генерации новых образов студент решил использовать нейросеть Stable Diffusion.

«Stable Diffusion имеет большое количество расширений и работает локально – использует ресурсы компьютера, а не сервисы сторонних компаний. Скорость генерации зависит только от мощности видеокарты, и нет никаких ограничений по количеству генераций.

У меня было несколько путей решения задумки, например, просто генерировать “поверх” фотографий университета, но мне показалось, что интереснее будет дообучить модель генерации изображений на фотографиях университета по методу LoRA, чтобы она, грубо говоря, понимала, как “Бонч” выглядит, или хотя бы выделила его узнаваемые черты. Этот метод используется, чтобы дополнить знания нейросети. – генерировать объекты, которые ей раньше были неизвестны, или строго оставаться в рамках конкретного стиля – фото, артов, картин. В этом способе есть плюсы – так можно получить бесконечное количество фото зданий, похожих на “Бонч”», – поделился Георгий.

Для дообучения требовались качественные фотографии университета, которые Георгию предоставил Медиацентр СПбГУТ. Из видеосъёмки университета с квадрокопетра были выбраны кадры с лучшими ракурсами. После проводились тесты модели на разных эпохах обучения – при недостаточном обучении облик университета не узнавался, а переобученные модели не позволяли стилизовать изображения.

Когда удалось получить стабильные изображения университета, Георгий приступил к опытам со стилями художников. Для более точной передачи визуального стиля каждого художника необходимо было включить в текстовую подсказку (промпт) для генерации характерные черты: направление, эпоху, полотно, цветовую гамму. В процессе работы было сгенерировано более 8 тысяч изображений, опробованы 52 художника. В результате были выбраны 5, чей стиль удалось передать лучше всего – Иван Шишкин, Василий Кандинский, Винсент Ван Гог, Поль Сезанн и Клод Моне.

«Многих художников не было в датасете, на котором училась нейросеть, поэтому от них сразу пришлось отказаться. Другие плохо сочетались по стилю или цветовой гамме с обликом современного здания», – отметил Георгий.

Сегодня технологии ИИ становятся все доступнее, но, чтобы получить действительно качественный продукт, требуется много времени и сил. Как признался Георгий, подготовка к выставке заняла 11 календарных дней, в каждый из которых он работал по 6, а иногда и 12 часов.

«Последние пару лет технологии генерации изображений развиваются стремительно. Раньше нейросети использовались преимущественно для прогнозирования и анализа, чем обычный человек мало интересовался. Когда мы с Александрой Павловной публиковали статью в 2022 году, генераторы изображений были баловством для энтузиастов.

Сейчас благодаря обширному сообществу Stable Diffusion и вкладу учёных со всего мира возможности выросли многократно. Это позволяет использовать генераторы изображений в бизнес-задачах или создавать личные творческие проекты. Например, люди, не обладающие навыками рисования, могут так реализовать свои идеи.

Пока что мало просто написать промпт, чтобы получить хороший результат. Это такое же творчество, требующее сил, времени и погружения в тему для достижения хорошего результата. Со временем это может измениться, генераторы становятся удобнее, качественнее и доступнее. На мой взгляд, мы живём в удивительное время, когда годы теоретических исследований преобразуются в удобные инструменты, которые доступны практически каждому желающему», – поделился автор работ.

В экспозицию Недели иностранных языков вошли 5 работ Георгия Урванцева – удивительное сочетание узнаваемой классики и искусственного интеллекта.

Кроме изображений университета на выставке также представлены стихотворения на английском языке, написанные студентами в соавторстве с искусственным интеллектом.

Познакомиться с работами можно до понедельника, 15 апреля, на пр. Большевиков, 22 (1 этаж 1 корпуса) возле КПЦ «Музей СПбГУТ» (ауд. 121–123/1).

Материал подготовлен УМиР в соавторстве с магистрантом СПбГУТ