Кодированный творец

«Вау, нужно было использовать этот трейлер. Это пугающе красиво и не выдает весь сюжет» – отметил один из комментаторов трейлера к фильму ужасов «Морган».

Трейлер действительно отличается от других. Дело в том, что его создал не человек, а Ватсон – искусственный интеллект, разработанный IBM. Алгоритмы обучались на других трейлерах и фильмах ужасов, чтобы найти самые пугающие сцены.

Удачный маркетинговый прием не обошелся без преувеличений. На самом деле ИИ не монтировал трейлер. Алгоритмы просто определили критерии подходящих сцен, а затем представили подходящие эпизоды людям-монтажерам.
Этот случай хорошо иллюстрирует любую «творческую» работу ИИ. Технически алгоритмы могут писать истории, создавать музыку и картины. Но фактически они лишь симулируют самые простые части творчества и не могут работать без помощи человека.Ограниченность ИИ в творческих задачах мешает технологии развиваться дальше. Над решением проблемы работают исследователи по всему миру.

Почему искусственному интеллекту сложно творить?

Искусственный интеллект отлично анализирует и обрабатывает большие объемы однотипной информации и распознает паттерны. Это позволяет ИИ находить новые объекты в космосе, точно диагностировать заболевания по рентгеновским снимкам и даже создавать новые лекарства.

Еще ИИ может точно рассчитывать вероятности и предсказывать развитие событий в сценариях с точно заданными правилами. Поэтому алгоритмы легко обыгрывают людей и в шахматах, и в го, где число возможных вариантов расстановки фигур превышает количество атомов во Вселенной.

Но у машин все еще нет интуиции и образного мышления. В задачах, где невозможно описать все переменные, алгоритмы безнадежно отстают от человека.

Эту проблему еще в 1988 описал Ханс Моравек – американский исследователь робототехники. Он отметил, что «сравнительно легко заставить компьютер играть в шашки на уровне взрослого человека, но сложно или невозможно дать ему навыки восприятия и мобильности и восприятия, которые есть у годовалых детей».

Ханс Моравек
Фото: Carnegie Mellon University

Сейчас, тридцать лет спустя, положение ИИ изменилось, но только частично. Новые мощные процессоры позволяют быстро обрабатывать огромные массивы данных.

Развитие компьютерного зрения помогает алгоритмам различать объекты и людей. Роботы могут автономно передвигаться по пересеченной местности. Но ИИ все еще не может понимать абстрактные концепты вроде иронии, юмора или красоты. Эти понятия сложно выразить в цифрах и четких критериях.

Творчество тесно связано с самостоятельным ИИ – последней и самой важной стадией развития технологии, которую в своей теории выделил Ли Кайфу. Тайваньский предприниматель и автор книги «Сверхдержавы искусственного интеллекта» отмечает, что самостоятельный искусственный интеллект сможет сам выбирать пути исполнения поставленной задачи и полностью трансформировать целые рынки и сферы деятельности. Возможность создавать новые решения позволит машинам менять мир.

Однако если в сборе и анализе данных современные ИИ развиваются быстро, то до самостоятельности им еще далеко.

Это мешает алгоритмам не только творить, но и выполнять другие важные задачи. К примеру, человек-водитель может догадаться, что внезапно появившийся на дороге странный полупрозрачный объект – просто голограмма. Но беспилотные автомобили не знают, что ожидать на дороге. Поэтому, как показал эксперимент израильских ученых, машины принимают голограммы за настоящие предметы.

Техники обучения

Понять сложные и абстрактные идеи алгоритмам помогают новые техники обучения нейросетей. Одна из самых перспективных методик – это обучение с подкреплением. Технику разработали еще в 1960-е, но современные мощные процессоры делают ее особенно эффективной в тренировке ИИ.

Обучение с подкреплением похоже на дрессировку. «Агент» – тренируемый алгоритм – помещается в специальную тестовую среду и получает задачу, например заставить 3D-модель человека пройти из одного конца комнаты в другую. Алгоритм начинает пробовать разные версии решения.

Человек-наблюдатель утверждает верные действия и отвергает неверные действия. То есть если алгоритм заставляет модель человека делать шаг ногой – он получает подтверждение, а если модель начинает идти на руках – алгоритм получает указание на ошибку.

Алгоритм записывает полученные сигналы и корректирует свои действия. Задача обучения: поэтапно указать ИИ оптимальный путь решения задачи.

Такой метод обучения все еще не позволяет ИИ понять, что такое «красота». Зато алгоритмы можно научить копировать то, что считается красивым. В пример можно привести проект Magenta от Google. С помощью обучения с подкреплением разработчики смогли натренировать ИИ для генерации изображений и даже для создания простой музыки.

Творческие задачи решать помогают и новые нейросети. Яркий пример – система BRET от Google.

BERT

– это нейронная сеть с transformer-архитектурой, направленная на работу с текстами. По сути это означает, что она анализирует не только слова по отдельности, но и их связи и контекст самого предложения. Таким образом сеть может «понимать» не только прямые, но и переносные значения слов, а также сложные предложения.

В первую очередь BERT используют для улучшения работы поисковика. Сеть позволяет сделать выдачу точнее.

Сами разработчики приводят в пример запрос «2019 путешествие из Бразилии в США нужна виза». В этом запросе особенно важна связь между словами, а также предлоги «из» и «в». Стандартные поисковые алгоритмы могут не понять этого и показать ненужные ссылки: например, лучшие отели в США за 2019 год или визы для американцев в Бразилию. BERT же учтет эти детали и покажет нужные результаты, то есть правила оформления визы в США для путешественников из Бразилии.

Фото: Google

Помимо поиска, BERT и схожие алгоритмы могут использоваться и в любой другой работе с текстами. (естественный язык). В сочетании с техникой обучения с подкреплением BERT может выйти и за рамки текста. К примеру, в 2020 году исследователи из Microsoft натренировали одну из версий сети, чтобы та смогла играть в Zork – текстовую компьютерную игру с достаточно сложными правилами.

Причем процесс были приближен к обычному человеческому обучени: алгоритмы пробовали выполнить задачу, потом задавали уточняющие вопросы и записывали ответы. После обучения сеть смогла уверенно играть в игру без человеческого вмешательства и даже развивать свои навыки.

Ближе всего к настоящему творчеству алгоритмы подошли с помощью генеративно-состязательных сетей (ГСС). Их в 2014 изобрел студент Университета Монреаля Иэн Гудфеллоу — идея пришла к нему во время спора с другими студентами в баре.

ГСС состоят из двух частей. Первая часть — генеративная сеть — анализирует образцы изображений или других объектов и создает новый объект. Вторая часть — дискриминативная сеть — тренируется для различения подлинных и сгенерированных объектов, а затем передает данные генеративной сети.

То есть одна часть сети учится обманывать другую. Метод сравнивают с тестом Тьюринга, в котором участвуют только машины. Сам Гудфеллоу использовал другую метафору: «Это можно сравнить с отношением художника и критика. Генеративная сеть хочет обмануть критика, заставить его думать, что сгенерированные изображения — настоящие».

В процессе проверок генеративная сеть создает и уточняет латентное пространство объектов, которое помогает ей точнее определять и использовать данные. В идеальном сценарии после обучения дискриминативная сеть уже не может отличить поддельные объекты от настоящих.

ГСС часто используют в создании дипфейков. Самый известный пример — сайт thispersondoesnotexist.com, который может бесконечно генерировать реалистичные изображения людей. За исключением редких ошибок, их почти невозможно отличить от настоящих фотографий.

Но на этом возможности ГСС не заканчиваются. К примеру, они могут генерировать звуки и даже музыку. Впрочем пока ГСС могут только перекладывать композиции на другие инструменты.

Что могут творческие ИИ

Эти и другие технологии все еще не делают ИИ по-настоящему творческим. Зато они позволяют автоматизировать связанную с творчеством работу.

Сервисы Clipchamp и Speechelo предлагает пользователям сгенерированную искусственным интеллектом озвучку видео. Искусственный голос может прочитать любой текст, правильно расставляя ударения и делая акценты на нужных словах.

Сотрудники британской студии Synthesia пошли еще дальше — они создают видео с искусственными спикерами. С их технологией быстрой генерации дипфейков заказчик даже может персонализировать видео, меняя голос и внешность моделей, а также текст в зависимости от того, кто смотрит видео.

Искусственный спикер
Фото: Dogtown Media

Такие «искусственные спикеры» стали особенно востребованы во время карантина, когда записывать видео с живыми людьми стало сложно. В июле международный рекламный гигант WPP разослал своим сотрудникам обучающее видео о пользе искусственного интеллекта. В каждом ролике к зрителю обратились по имени и на его родном языке. Спикеры меняли внешность в зависимости от страны проживания сотрудника.

Компания Flawless сосредоточилась на другом аспекте переводов видео и фильмов. Разработчики создали ИИ TRueSync, который меняет мимику актеров или так, чтобы она соответствовала дубляжу. Алгоритмы знают как люди произносят звуки и слова на разных языках. Еще они могут анализировать мимику и изменять ее так, чтобы не искажать эмоции актеров. В результате кажется что в фильме изначально говорили на языке дубляжа.

В то же время такие творческие применения ИИ создают и новые проблемы. Первая и самая очевидная — возможный рост безработицы. Точно предсказать влияние алгоритмов на занятость в творческих профессиях невозможно. Но те же сервисы автоматической сгенерированной озвучки предлагают клиентам «прекратить платить актерам».

Также творческий ИИ могут использовать преступники. Особенно опасными могут стать дипфейки.

В 2020 году исследователи из Университетского колледжа Лондона признали их самой серьезной угрозой закону из всех связанных с ИИ технологий. Преступники могут использовать сгенерированные изображения для финансового мошенничества, подделки улик и шантажа.

Еще дипфейки могут использовать, чтобы распространять дезинформацию о важных темах. Эксперты не раз высказывали опасения, что так можно создать опасные поддельные видео с политиками. Во время предвыборной гонки в США в 2020 году компрометирующе смонтированные видео с кандидатами набирали миллионы просмотров, с дипфейками ситуация может стать еще хуже.

Проблемой серьезно обеспокоено Министерство обороны США. Ведомство даже провело конкурс самых точных поддельных видео, чтобы усовершенствовать методы борьбы с подделками. Однако, как отмечают разработчики, в те же ГСС можно добавить критерии оценки, которые помогут сетям обходить детекторы и сделают подделки еще лучше.

А исследователи из Университета Вашингтона предупреждают, что дипфейки можно использовать и для публикации поддельных спутниковых снимков, на которых можно изобразить что угодно, от зданий до ракетных шахт. Такие поддельные снимки могут спровоцировать серьезный международный конфликт. Распознать такие подделки сложно, а иногда и невозможно.

ГСС уже фигурировали в шпионском скандале. В сентябре 2020 года Facebook раскрыл пропагандистскую сеть, связанную с китайскими властями. Сеть фальшивых аккаунтов пыталась манипулировать общественным мнением о Тайване. Чтобы сделать аккаунты похожими на настоящие, агенты использовали сгенерированные ГСС фотографии.

Риски неправильного использования технологии — не повод отказываться от этой технологии. К тому же самостоятельные ИИ и новые способы их тренировки слишком важны для экономики и политики, чтобы их развитие заморозили.

Но раньше область исследований ИИ была сравнительно свободной, без жестких правил. Теперь, как отмечают эксперты HBR, ее все чаще регулируют новые законы. И в ближайшем будущем их может стать намного больше.

ИИ-творцы в Москве

Несмотря на свои ограничения, искусственный все же можно использовать не только в коммерческих целях, но и для настоящего искусства.

Убедиться в этом можно на фестивале «Эстетика синтеза», организованный Центром профессионального мастерства «Медиаискусство» и Московской музыкальной школой имени А.К. Лядова при участии Дирекции образовательных программ в сфере культуры и искусства департамента культуры города Москвы. Пройдет он с 18 по 20 июня.

На фестивале будут как обсуждать машины в искусстве, так и показывать настоящие примеры. Там сыграют музыку, написанную ИИ после анализа русской классики XIX и покажут написанный алгоритмами «Манифест манифестов», составленный из 250 манифестов художников. А в рамках zoom-перформанса пройдет чтение фрагментов машинного текста о «новом взгляд на автономность технологий в современном мире».

Куратор фестиваля и руководитель методического центра «Медиаискусство» Наталья Фукс считает, что это только начало использования ИИ в искусстве.

Я уверена, что репрезентация таких художественных инициатив и участие в них дает новый взгляд на автономность технологий в современном мире и позволяет говорить о взаимоотношениях человека и машины более осмысленно.
Куратор фестиваля «Эстетика синтеза» и руководитель методического центра «Медиаискусство» Наталья Фукс

Также Наталья полагает, что машины не смогут заменить человека в искусстве, ведь алгоритмам не хватает самостоятельности.

Фото: Symphocat / Facebook

«Но машина может быть со-автором и помогать нам увидеть себя со стороны. Сейчас поднимается большое количество этических вопросов, связанных с использованием тех или иных технологий, связанных с искусственным интеллектом в частности, и художественные проекты, использующие технологии машинного обучения, компьютерного зрения и тп, зачастую более ясно формируют для зрителя новую перспективу, способствуют появлению критического взгляда на инновации. На мой взгляд, это самый главный смысл медиаискусства».