Завершающийся год продемонстрировал, с одной стороны, дальнейший рост мощностей и возможностей систем искусственного интеллекта (ИИ) на основе «базисных моделей» с использованием глубоких нейросетей-трансформеров, а с другой — зафиксировал определенные направления развития, связанные с преодолением их известных ограничений. И все это происходит на фоне тектонических изменений на политической арене, потенциально ведущих к слому однополярности не только мирового экономического пространства, ни и его технологической инфраструктуры.
Антон Колонин:
О глубине, прозрачности и «силе» ИИ в текущем моменте
Как мы уже писали в прошлогоднем обзоре, «базисные модели» продолжают демонстрировать неискушенному пользователю свои растущие «человеческие» возможности. Месяц назад, практически одновременно, Facebook [1] и Google анонсировали модели трансформеров, способные генерировать любое реалистичное видео на основе текстовых предложений. А чуть ранее нейросеть Midjourney позволила американскому художнику занять первое место на конкурсе изобразительных искусств в США. Дело дошло до того, что летом этого года специалист лидирующей в данной области компании Google обнаружил признаки сознания у ИИ и обнародовал свои опасения по этому поводу, в связи с чем был уволен за разглашение конфиденциальной информации.
Однако, специалисты хорошо знают, что, на самом деле, практически все упомянутые достижения получаются с помощью человека-специалиста, работающего в качестве «конструктора подсказок» («prompt engineering») и «отборщика вишенок» («cherry-picking»). При этом, человек-оператор системы ИИ, со одной стороны, вручную подбирает слова, комбинации слов и их последовательности, нацеленные на получение ожидаемого результата, а с другой, субъективно оценивает качество полученного результата на предмет его адекватности, отбирая в итоге только один из сотен предложенных вариантов. Примерно так вы работаете при поиске в Интернете, подбирая и комбинируя слова в поисковом запросе до тех пор, пока в поисковой выдаче не удастся найти нужную информацию. Примерно так работали гадалки на кофейной гуще, взбалтывая её до тех пор, когда полученной конфигурации гущи можно было дать интерпретацию, убедительную для клиента.
Вместе с тем, комбинация технологии глубоких нейросетей на основе архитектуры «трансформеров» с учетом «внимания» находят все больше и больше применений в областях, отличных от обработки текстов, для которых они были изначально предназначены — широкий спектр таких приложений был представлен в начале года на ежегодной российской конференции OpenTalks.AI. Практически все подобные приложения предполагают либо жесткое ограничение спектра решаемых задач (например, распознавание лиц или дорожных знаков) с обеспечением большого числа обучающих данных, подготовленных вручную, либо предполагают использование там, где ошибки представляются не критичными — например, генерация изображений и видеорядов или создание разговорных чат-ботов в сфере развлечения и досуга.
Проблемы «объяснимости и интерпретируемости» ИИ на основе глубоких нейросетевых моделей, поднятые в одном из предыдущих обзоров, пока так и не находят адекватного решения, то есть говорить о надежной автоматизации объектов критической инфраструктуры с помощью современного ИИ пока не приходится. В свою очередь, для полномасштабной реализации «базисных моделей» требуются вычислительные ресурсы, непосильные даже для большинства представителей крупного бизнеса, за исключением крупных IT-компаний и банков.
Антон Колонин:
Следующие цели в гонке ИИ — объяснимость и обучаемость
Наряду с обозначенным выше прогрессом, все больше и больше «лидеров мнений» современного научного сообщества фиксируют свое внимание как на «врожденных проблемах» классического подхода основанного на глубоких нейронных сетях, так и на возможных путях преодоления этих проблем. Например, «идейный лидер» одной из ведущих мировых IT-компаний Ян Лекун, в своей свежей фундаментальной работе, рассматривает текущую ситуацию в ИИ как «тупиковую» и подробно анализирует пути выхода из этого «тупика». Одним из векторов дальнейшего развития он видит необходимость «структурного мышления» на основе иерархических нейро-символьных представлений, обсуждавшихся в нашем предыдущем обзоре. Другим вектором является построение эффективных, с точки зрения энергозатрат, моделей, примерно в том же ключе, как это было предложено более 20 лет назад одним из основателей направления «общего искусственного интеллекта» (AGI) Пей Вонгом в его системе неаксиоматической логики NARS, работающей в условиях ограниченных ресурсов. Напомним, что обобщенное каноническое определение общего (сильного) искусственного интеллекта на основе частных определений Бена Герцеля, Пей Вонга, Шейна Легга и Маркуса Хуттера звучит как «способность достигать сложных целей в различных сложных средах, в условиях ограниченных ресурсов».
Необходимость «структурного мышления» также вытекает из свежей работы коллектива с участием другого «авторитета» в области нейросетей, «изобретателя LSTM» Юргена Шмидхубера, где экспериментально продемонстрирована эффективность машинного обучения за счет выявления относительно высокоуровневых поведенческих примитивов (инвариантов) на основе относительно низкоуровневых пространственно-временных данных, получаемых в ходе обучения без учителя. Сходные по значимости результаты были в прошлом году получены в НГУ и представлены на конференции AGI-2021. В последней работе было экспериментально и количественно показано, что успешное обучение одной и той же задаче обучения с подкреплением в идентичных условиях, при параметризации её на уровне объектов либо на уровне отдельных пикселей происходит за одно и то же количество циклов самой среды обучения, однако уровень вычислительных затрат в первом случае несоизмеримо ниже, чем во втором. При этом, временные затраты на обучение во втором случае оказываются неприемлемо большими для физической реализации, что указывает на практическую необходимость, с точки зрения эффективности, построения сложных, как минимум — двухуровневых схем обучения, где на первом уровне система выучивает примитивы окружающей среды, а на втором уровне уже учит более сложные поведенческие программы на основе этих примитивов. И здесь мы как раз приходим к основополагающей роли затратно-эффективности, на критическую важность которой давно указывал Пей Вонг и ныне указывает Ян Лекун.
Еще более фундаментальное основание, с точки зрения теоретической физики, под проблему сильного ИИ подводит авторский коллектив под руководством Карла Фристона в вышедшей в этом году книге, обосновывающей разумное поведение живых существ, включая человека, основополагающим принципом минимизации так называемой «свободной энергии». Если не углубляться в философию, физику и математику, очень грубо, этот принцип предопределяет тенденцию «разумной системы» к снижению несомых ей энергозатрат, либо к снижению испытываемых ей состояний неопределенности или непредсказуемости. Что любопытно, несмотря на кажущуюся смысловую близость таких параметров как вероятность и предсказуемость, в нашей последней работе, на примере обучения без учителя сегментации текстов на естественном языке, мы показали существенные отличия в точности моделей, основанных на метриках вероятности и неопределенности, причем именно модели основанные на неопределенности оказались значительно более эффективными с точки зрения качества сегментации текстов. В то же самое время, практически подавляющее большинство современных моделей машинного обучения основаны на максимизации именно вероятности предсказания, так что упомянутые работы открывают дорогу новым фундаментальным и прикладным исследованиям.
На прошедшей в августе ежегодной конференции по общему/сильному ИИ (AGI-2022), Бен Герцель в своем вступительном слове достаточно точно охарактеризовал текущий момент его развития. Этот момент можно рассматривать как выход на рубежи 25-летней давности, когда указанные выше принципы, включая «структурное мышление», «нейросимвольную интеграцию», «затратно-эффективность», «интерпретируемость», наряду с рядом других, под несколько другими именами и определениями были положены в основу первого проекта по созданию сильного ИИ Webmind (1997–2001), послужившего отправной точкой в профессиональной карьере для многих известных современных исследователей и разработчиков в этой области. Однако, сегодня возврат к этим принципам происходит на совершенно другом уровне доступности и мощности вычислительных ресурсов и уровня развития нейросетевых методов на основе «глубоких» нейросетей и понимания их фундаментальных достоинств и недостатков.
По-прежнему актуальным остается тренд по созданию так называемых «когнитивных архитектур», предполагающих сочетание модулей, выполняющих различные когнитивные функции, с целью решения более или менее широкого спектра задач. Наиболее известным примером такой архитектуры стала общеизвестная ныне Alpha Go компании Deepmind. У нас в стране наиболее продвинутые решения применительно к робототехнике в этой области создаются в научно-исследовательском институте AIRI. Оригинальная нейросимвольная когнитивная архитектура для систем поддержки принятия решений на основе фундаментальных принципов мозговой активности, реализуемых в рамках формальных математических методов в этом году была представлена объединенным коллективом Лаборатории Нейронаук ПАО Сбербанк и НГУ сразу на двух международных конференциях — Biologically Inspired Cognitive Architectures (BICA-2022) и по общему/сильному ИИ (AGI-2022). На последней конференции также была представлена оригинальная когнитивная архитектура, воспроизводящая функциональную структуру и архитектуру головного мозга в целях создания операционной системы для роботов на основе искусственной психики разработчиков МФТИ.
Отдельным трендом, заслуживающим внимания, и связанным как с проблемой сильного ИИ вообще, так и с проблемой затратно-эффективности, являются так называемые нейроморфные компьютерные архитектуры, в частности — импульсные нейронные сети. Дело в том, что любые современные решения на основе современных классических вычислительных архитектур, включая искусственные нейронные сети, реализованные на «центральных процессорах», многоядерных мультипроцессорных системах и даже на основе графических карт, обладают как крайне высокой энергозатратностью, так и крайне низкой степенью параллелизации, по сравнению с вычислительными свойствами центральных нервных систем животных. Самые современные вычислительные системы, даже еще не сравнившиеся по интеллектуальным способностям с млекопитающими, уже превышают энергопотребление с биологическим мозгом человека на много порядков. Импульсные нейросети, реализованные в нейроморфных чипах, гипотетически могут помочь преодолеть этот разрыв. Одним из решающих факторов заключается в том, что сложные когнитивные задачи, решаемые животными и людьми, чрезвычайно сложны и обычно требуют перебора большого числа вариантов для выбора оптимального. В рамках традиционных архитектур для этого нужен полный перебор в той или иной форме, причем приемлемый вариант может оказаться как первым, так и последним в списке анализируемых, что заранее неизвестно, так что приходится перебирать все варианты, а в случае классических нейросетей, просчитывать активации всех нейронов по всем слоям глубокой нейросети. В случае же массивной параллелизации решения когнитивных задач как в коре головного мозга, так и в импульсных нейронных сетях, поиск всех вариантов происходит одновременно (асинхронно) по всем слоям, при этом «побеждающий» вариант в какой-то момент начинает подавлять «альтернативные», и «полный перебор» в подавляющем большинстве случаев не требуется. Кроме того, представление информации на уровне единичных импульсов вместо передачи многобитных машинных слов является еще одним фактором, потенциально снижающим энергопотребление на несколько порядков. Интересующихся данным направлением тематикой можно ознакомиться с докладом Михаила Киселева в прошлом месяце.
Вадим Козюлин:
Три группы угроз смертоносных автономных систем
Последний доклад, а также другие работы в области сильного и общего ИИ (AGI), указанные выше, в течение последних несколько лет еженедельно обсуждаются на онлайн-семинарах русскоязычного сообщества разработчиков сильного ИИ — Agirussia и его группах в Телеграм, материалы обсуждения доступны на канале Youtube сообщества.
К сожалению, политическая обстановка, оформившаяся в текущем году, не только затруднила международные научные коммуникации и разрушила большое число производственных и экономических связей в сфере исследований и разработок в сфере ИИ. Она также обострила катастрофическую ситуацию со стратегическим технологическим отставанием России в данной области по сравнению с США и Китаем. В альманахе «Искусственный интеллект» за 2021 год Россия оказывается на 17–22 позициях в мире по научным публикациям и патентам, с отрывом от лидирующих Китая и США по показателям в десятки и сотни раз. К сожалению, ресурсы, задействованные у нас в стране на развитие соответствующих направлений и выполнение упомянутых выше проектов, ничтожно малы по сравнению с тем, сколько выделяется на них западными IT-гигантами и государством в Китае. В условиях санкционного давления и разрушения глобальных экономических связей такой технологический отрыв для России будет необратимым, если не принимать чрезвычайных мер.
В гуманитарном аспекте, проблема безопасности ИИ в части недопустимости автономных смертоносных систем (Lethal Autonomous Weapton System или LAWS), заявленной в нашем предыдущем обзоре, приобрела совершенно новый аспект. Уже произошедший в 2020 году армяно-азербайджанский конфликт оказался «войной дронов» (беспилотных летательных аппаратов или БПЛА), причем победа оказалась на той стороне, у которой в этом аспекте был перевес. Развитие конфликта на Украине было охарактеризовано как «война дронов» Илоном Маском, причем уже совсем в другом масштабе, как мы можем судить по новостным сводкам. Поиск в Интернете «война дронов украина» дает возможность оценить драматизм ситуации в полном объеме, как с точки зрения сфер применения, так и с точки зрения обеспечения войск данными техническими средствами. При этом, наличие либо отсутствие даже несовершенных современных БПЛА с полностью ручным управлением или наводящихся просто по GPS оказывается решающим для исхода военно-технических операций самого разного класса. То же самое можно сказать про системы противодействия БПЛА, в связи с чем можно ожидать, что развитие технологической гонки вооружений в обозримом будущем будет проходить как раз на грани развития БПЛА, надводных, подводных и наземных «дронов», включая LAWS, а также систем противодействия им.
Константин Матвеенков:
Искусственный интеллект с китайской спецификой: станет ли Китай мировым лидером в сфере ИИ к 2030 году?
В последнем случае, способность автономно действовать в условиях помех и изменяющейся оперативной обстановки может оказаться одним из решающих «соревновательных преимуществ» в данной гонке. Причем упомянутая выше затратно-эффективность для БПЛА будет являться решающим фактором их практической применимости ввиду прямой связи между энергопотреблением, дальностью действия, взлетной массой, и грузоподъемностью. В этих условиях, с учетом того, что денонсируются даже имеющиеся международные договоренности по контролю над вооружениями, пока трудно ожидать прогресса в области контроля над LAWS, включая барражирующие боеприпасы, дроны-камикадзе и их грядущие автономные версии с самостоятельным выбором целей и принятием решений на поражение. Еще в большей степени осложняет ситуацию взрывной рост спроса на БПЛА и резкий рост рентабельности и прибылей производящих их компаний. Как итог, запрет на развитие и применение системы LAWS сейчас кажется практически невозможным, как минимум до тех пор, пока не будет завершен имеющий место конфликт и пока вся система глобальной международной безопасности не будет радикально пересмотрена. А пока, государства, имеющие большие возможности применения БПЛА и LAWS, будут иметь существенные военно-технические преимущества, а производящие их — преимущества экономические.
Несмотря на активную роль России в текущем международном противостоянии, её технологический потенциал достаточно ограничен, в том числе, в силу имевшей место многие десятилетия «утечки мозгов», по сравнению с США, куда данная «утечка», в основном, направлялась, и с Китаем, где в последние два десятилетия усилиями государства «утечка» была прекращена и, наоборот, осуществлялся обратный «переток» специалистов в КНР. После обострения противостояния между Россией, США и Китаем, увеличилась опосредованная «утечка мозгов» из российских компаний уже в китайские. Прямо сейчас, новые санкционные меры США, направленные на создание невозможности для работы западных специалистов в сфере высоких технологий в Китае, потенциально могут ухудшить ситуацию не только для Китая, но и для РФ, в силу дополнительной востребованности и «утечке» отечественных кадров в китайские компании, что еще больше затруднит обеспечение национального технологического суверенитета в области ИИ.
Подводя итог, можно констатировать, что дальнейшее развитие ИИ, претерпевая бурный рост, с одной стороны, требует новых решений и развития новых направлений. С другой стороны, обострение политического, экономического и военного противостояния ведущих игроков на мировой арене делает их еще более зависимыми от технологического преимущества или отставания, соответственно. С третьей стороны, перспективная гуманизация ИИ возможна только по факту радикальной стабилизации международной ситуации.
1. Компания Meta, владеющая социальной сетью Facebook, признана экстремистской и запрещена в России.