Бурное развитие искусственного интеллекта даёт нам всё новые и новые возможности как для решения профессиональных задач, так и для творчества и самовыражения. Но это накладывает на нас и необходимость обучаться новым технологиям, что в действительности не так просто, как кажется. Справиться с этой задачей нам поможет известный популяризатор искусственного интеллекта, преподаватель кафедры 806 «Вычислительная математика и программирование» МАИ, создатель телеграм-канала «Облачный адвокат» Дмитрий Сошников.
Здравствуйте, Дмитрий. Вы занимаетесь темой искусственного интеллекта вот уже более 30 лет. Расскажите, пожалуйста, какие самые масштабные изменения произошли в этой сфере за это время?
Самое основное изменение — это смещение в сторону машинного обучения. Потому что изначально, когда разрабатывались планы по созданию искусственного интеллекта, существовало два магистральных подхода.
Первый подход, когда мы извлекаем знания из человека, пытаемся понять, как человек размышляет, и затем моделируем этот процесс на компьютере. Так появился классический искусственный интеллект, и долгое время первые успехи наблюдались именно в этом направлении. В частности, создавались экспертные системы, которые позволяли предсказывать какие-то тенденции на основании имеющихся данных. Больших коммерческих успехов тогда ещё не было, потому что делать это было слишком сложно и дорого.
Между прочим, базовые технологии классического искусственного интеллекта продолжают использоваться и сейчас. Например, в предсказаниях, какая тема будет более популярна для какой аудитории. Этот выбор тем тоже можно делать на основе анализа данных искусственным интеллектом. Если мы правильно соберём данные с аудитории — кто и что посмотрел — и попытаемся выстроить портреты пользователей, то этими достаточно классическими методами сможем значительно повысить эффективность своего труда. Я думаю, этим много кто пользуется. Во все социальные сети автоматически встроены алгоритмы, которые дают индивидуальные рекомендации пользователям. Эта базовая технология повсеместно и давно используется, хотя за кадром мы её не видим и редко вспоминаем.
Второй подход — это когда мы создаём модель внутри компьютера, в неё загружаем множество данных. Обучаясь на них, она сама начинает вести себя как человек. По этому пути пошли уже в 21 веке, и он был связан с бурным развитием интернета и облачных технологий. Дело в том, что для машинного обучения нужно много данных и вычислительных ресурсов. Данных становилось всё больше благодаря интернету. Вычислительных ресурсов становилось всё больше, потому что придумали облачные технологии. Чтобы обучить какую-то модель, лаборатории уже не нужно было покупать своё дорогостоящее оборудование — вычислительные мощности можно было арендовать. Это положило начало развитию машинного обучения. В 2012 году впервые удалось эффективно применить свёрточную нейросеть для создания изображений, что резко повысило точность их распознавания и классификации. В 2015 году впервые была достигнута такая же точность классификации изображений, как и у человека. После генерации изображений стали бурно развиваться другие направления — генерация текста и речи. Очень быстро эта технология дошла до такого уровня, что нейросеть даже думать в некотором смысле стала сама. Это очень значимый переход.
И этот переход больше всего меня вдохновляет, потому что уже сейчас мы подходим к такому моменту, когда модель искусственного интеллекта начинает вести себя очень человекоподобно. Если взять говорящую модель ChatGPT или YandexGPT, она говорит почти как человек. Это очень интересно, потому что, создавая такие модели, мы открываем какую-то грань себя. А как нам ещё это сделать? Мы не можем сейчас так хорошо разобраться в устройстве мозга, чтобы понимать, как он работает — это слишком сложно. А строя такие упрощённые модели, пытаясь собрать что-то сами, мы можем понять человечество как говорящую систему. В самом деле, мы загружаем в компьютерную модель речь, и она, просто умножая числа, начинает разумно говорить. Всё это приближает нас к пониманию того, как устроены мы сами.
Ещё одним трендом в развитии нейросетей стали оснащённые ими чат-боты.
Сами чат-боты появились ещё до генеративных сетей. Их можно строить по принципу «мы понимаем, что человек скажет один из 10 возможных вариантов, и потому для каждого варианта прописываем свои ответы». Все ассистенты первого поколения, такие как Siri, «Алиса», были построены по такому принципу. И они были достаточно полезными, хотя чат-боты такого типа и не выглядели как живой человек, и общаться с ними было не интересно. Но таких не слишком сообразительных ботов можно было поставить на первую линию техподдержки. Они могли записать все показания пользователя, собрать их в таблицу и передать живому оператору полную картину того, что происходит, избавляя его от необходимости задавать рутинные вопросы. Сейчас разрабатываются чат-боты нового поколения. Им уже не прописывается чёткая логика, потому что ботами будет управлять генеративный ИИ. Он сам решает, что ответить пользователю, и с такими ботами общаться будет интереснее, потому что они могут дать намного более содержательные ответы.
Какие наиболее распространённые инструменты искусственного интеллекта доступны российскому пользователю и как правильно с ними работать?
Для генерации текстов проще всего начать пользоваться GigaChat’ом от «Сбера». Он доступен в виде удобного чат-бота в Telegram, с которым можно разговаривать. Он умеет генерировать и изображения. Но я обычно для изображений использую отдельный инструмент Leonardo AI. У него есть возможность генерировать 10–20 картинок в день бесплатно, обычно мне этого хватает.
Если же ориентироваться на лидеров индустрии, то это ChatGPT, но здесь есть сложности с доступом. Из российских продуктов — это конкурирующие нейросети «Яндекса» и «Сбера». Они находятся примерно на одном уровне. У «Яндекса» есть «Алиса», ей нужно сказать: «Алиса, давай придумаем что-нибудь», чтобы она вошла в режим генерации. Но её недостаток в том, что она неохотно разговаривает на некоторые темы. Она часто говорит: «Я не буду это придумывать, это слишком неправильно». Когда она только появилась, я дал ей такое задание: «Алиса, давай придумаем сказку про грустного мальчика, который плакал целый день», на что получил ответ: «Такое придумывать нельзя, потому что это слишком грустная история, она кого-нибудь расстроит». Это существенный недостаток, потому что как правило самое интересное находится на каких-то пограничных эмоциональных рубежах. Но сама модель YandexGPT более открытая. Правда, у неё нет такой точки, откуда ею легко было бы попользоваться, как GigaChat’ом в Telegram.
Пользуясь нейросетями, не нужно думать, что они прямо сейчас заменят человека. Да и, по правде говоря, нам же и самим не хотелось бы, чтобы нас заменили, нам же хочется и самим что-то делать. Нейросеть способна решать нестандартные задачи, но только совместно с нами, потому что только человек знает, что ему нужно в конечном итоге.
Например, текстовая нейросеть просто генерирует правдоподобный текст. Но совместно с человеком она может в этот мыслительный процесс попасть. Человек должен задавать ей вопросы так, чтобы нейросеть смогла сделать что-то полезное. В таком случае она генерирует, а человек выступает её критическим партнёром.
Простой пример. Часто бывает так, что нейросеть генерирует изображения человека с анатомическими ошибками, например с шестью пальцами на руке. В этом случае возможны варианты действий: человек может либо перегенерить картинку целиком и дождаться, пока не будет достигнут положительный результат, либо обвести руку и попросить исправить только эту область, либо сгенерировать изображение человека, скажем, с руками за спиной.Материал подготовлен при поддержке Минобрнауки России