Могут ли современные модели искусственного интеллекта по-настоящему помнить, мыслить, планировать и рассуждать так же, как люди? Некоторые исследовательские лаборатории в области ИИ утверждают, что да. Но, по мнению главного научного сотрудникаMeta* (запрещена на территории РФ) по искусственному интеллекту Яна Лекуна, это не так. Тем не менее, он полагает, что через 10 лет можно достичь этой цели, еслииспользовать новый подход, известный как «модель мира».
В начале этого года OpenAI представила функцию «память», которая позволяет ChatGPT «запоминать» диалоги с пользователями. Новое поколение моделей, o1, демонстрирует слово «размышление» во время генерации текста и утверждает, что способно «рассуждать».
Возможно, это создает ощущение, что ученые уже на пороге создания общего искусственного интеллекта (AGI). Однако Лекун, выступая на Hudson Forum, раскритиковал оптимистичные ожидания Илона Маска и соучредителя Google DeepMind Шейна Легга, заявляя, что ИИ, равный человеку, появится еще не скоро.
«Нам нужны машины, которые могут воспринимать мир, запоминать информацию, а также обладать интуицией и здравым смыслом, чтобы рассуждать и планировать на уровне человеческого интеллекта, — отметил Лекун. — Несмотря на то что вы слышали от самых восторженных людей, современные системы ИИ не обладают такими возможностями».
Лекун утверждает, что современные большие языковые модели (LLM), такие как ChatGPT и Meta AI*, далеки от уровня человека. По его словам, для его достижения может потребоваться «от нескольких лет до десятилетий».
Причина в том, что языковые модели LLM работают, предсказывая следующий символ (обычно это несколько букв или слово), а модели для работы с изображениями и видео предсказывают следующий пиксель. Другими словами, они действуют в одномерном пространстве, тогда как модели для изображений и видео — в двумерном.
Эти системы хорошо справляются с задачами в своих измерениях, но не понимают, как устроен следующий уровень. Из-за этого современные ИИ-системы не могут выполнять простые действия, с которыми легко справляются люди.
Лекун подчеркивает, что, например, люди осваивают такие навыки, как убирать со стола к возрасту 10 лет или водить машину к 17, обучаясь этому всего за несколько часов. Но даже самые продвинутые ИИ-системы сегодня, проанализировав тысячи или миллионы часов данных, не могут надежно работать в реальном мире.
Для решения более сложных задач Лекун считает необходимым создавать трехмерные модели, способные воспринимать окружающий мир, на базе нового типа ИИ, известного как модель мира. «Это ваше представление о мире, который вас окружает, — отметил он. — Например, когда вы видите беспорядок в комнате и хотите его убрать, вы можете представить, как, убрав одежду и расположив вещи по местам, вы достигнете нужного результата. Не нужно пробовать разные способы или сначала учиться убирать комнату. Мозг наблюдает за трехмерным пространством и создает план действий, чтобы достичь цели с первой попытки. Этот план и представляет собой то, что могут предложить модели мира в ИИ».
Преимущество таких моделей заключается в их способности обрабатывать гораздо больше данных по сравнению с языковыми моделями. Однако это также делает их более требовательными к вычислительным мощностям, поэтому облачные провайдеры активно ищут сотрудничества с компаниями в области ИИ.
Модели мира становятся ключевой идеей, к которой стремятся несколько исследовательских лабораторий в области ИИ, и этот термин быстро становится популярным в сфере венчурного финансирования. Недавно группа исследователей, в том числе Фей-Фей Ли и Джастин Джонсон, привлекли $230 млн для своей стартап-компании World Labs. Они убеждены, что модели мира откроют путь к созданию значительно более умных систем ИИ. OpenAI также описывает свой еще не представленный генератор видео Sora как мировую модель, хотя пока не раскрывает подробностей.
Лаборатория долгосрочных исследований в области ИИ компании Meta*, FAIR (Fundamental AI Research), активно занимается разработкой интеллекта, ориентированного на достижение целей и моделей мира. Ранее FAIR занималась ИИ для продуктов Meta*, но в последние годы лаборатория переключилась на долгосрочные исследования в области ИИ. Ян отметил, что в настоящее время FAIR даже не использует большие языковые модели.
По словам Лекун, идея мировых моделей является интересной, однако, пока значительного прогресса в их реализации не наблюдается. Существует множество сложных задач, которые необходимо решить, чтобы перейти от текущего состояния к желаемым результатам, и они гораздо сложнее, чем предполагается. «Пройдут годы, если не десятилетия, — сказал Лекун. — Марк Цукерберг постоянно спрашивает меня, сколько времени это займет».
В книге «На пути к искусственному интеллекту человеческого уровня» Эйтан Майкл Азофф утверждает, что взлом нейронного кода и эмуляция визуального мышления — это ключ к тому, чтобы превзойти человеческий интеллект с помощью ИИ.