Рекомендации, сурдоперевод, диагностика заболеваний

Машинное обучение из узкого научного направления превратилось в мощный инструмент для решения огромного количества практических задач. Различные модели применяются во всех технологических индустриях — от банковской сферы до биотехнологий. Попробовать свои силы в создании собственных моделей и решении задач можно до 10 ноября в соревновании AI Journey Contest от Сбера, которое проходит в рамках ежегодной международной конференции AI Journey. Вместе с организаторами мы подготовили небольшой обзор направлений, представленных в конкурсе.

Мультимодальные модели

Модели машинного обучения уже научились отлично справляться с распознаванием речи, переводом текста и анализом картинок. Для каждой из этих задач обычно используется отдельная модель, обученная на конкретной модальности данных — например, на тексте или изображениях. Однако реальные запросы часто сочетают данные из нескольких модальностей. Например, для ответа на вопрос «Что делает собака на картинке?» модель должна понимать и текст, и изображения.

Для работы с такими данными люди используют мультимодальные модели. Как следует из названия, они способны анализировать данные разных модальностей. Это поведение мы ожидаем от естественного интеллекта: человек воспринимает картинки, звук и текст с помощью единой архитектуры нашего мозга. Однако заставить модель принимать на вход разные модальности данных — нетривиальная техническая задача.

В настоящее время одним из ключевых подходов к организации архитектур мультимодальных моделей является создание адаптеров, умеющих проецировать данные определенного типа в векторное пространство базовой фундаментальной языковой модели. И для каждой новой модальности нужен свой адаптер. По аналогии с устройством головного мозга, где определенные области отвечают за интерпретацию звука, визуальной информации и так далее, такие адаптеры выполняют схожую функцию для большой языковой модели в сердце архитектуры.

Мультимодальные модели превосходят унимодальные в задачах, где данные разных модальностей используются вместе. Например, в распознавании объектов на картинках с текстовым описанием мультимодальные модели обычно справляются лучше, чем модели, которые работают только с изображениями или только с текстом. Они, например, активно применяются в задачах модерации контента в социальных сетях.

Еще одно классическое применение мультимодальных моделей — это чат-боты и поисковики на основе больших языковых моделей. Пользователи часто задают вопросы, сочетающие в себе несколько модальностей данных, поэтому важно, чтобы языковая модель умела их анализировать. Именно такую модель попросят разработать участников в рамках направления Strong Intelligence в AI Journey Сontest. Она должна будет принимать на вход текстовую, визуальную и аудиоинформацию и генерировать ответ на английском языке.

Рекомендательные алгоритмы

Мы сталкиваемся с работой рекомендательных алгоритмов, просматривая ленту социальных сетей, маркетплейсы или агрегаторы контента. И уже давно не управляем своим информационным потоком самостоятельно — вместо нас это делают сервисы, подстраиваясь под наши интересы и предпочтения.

Персональные рекомендации имеют огромное значение. Фактически это причина того, почему нам так интересно проводить время в интернете: хорошие рекомендации повышают качество пользовательского опыта, заставляют нас возвращаться к сервисам и пользоваться ими дольше.

Как правило, рекомендательные алгоритмы обучаются на основе данных о нашей предыдущей активности в интернете. Это могут быть данные о предыдущих покупках, о времени, проведенном на различных страницах, а также о количестве кликов на рекламные объявления. Тем не менее у этого подхода есть свои недостатки.

Например, если на сайте уже работает рекомендательная система, то данные, на которых обучается новая модель, перестают быть независимыми. Из-за этого предсказания модели смещаются в сторону более популярного контента, и образуются «информационные пузыри» — инфопространства, в которых показывается контент, согласующийся с предыдущими предпочтениями пользователей. Происходит так называемое формирование петель обратной связи.

Формирование информационных пузырей — это негативный сценарий для сервиса. Пользователи изолируются в своем пузыре, разнообразие подборок падает, и непопулярные авторы перестают производить контент. Поэтому в современных рекомендательных системах часто используется концепция обучения с подкреплением (reinforcement learning). В рамках этой парадигмы алгоритмы работают в динамической среде, адаптируясь к изменяющимся предпочтениям пользователей и стремясь не только предоставить им знакомый контент, но и расширить горизонт их интересов. Таким образом алгоритмы обучения с подкреплением максимизируют долгосрочную выгоду сервиса.

Все желающие смогут попробовать свои силы в создании рекомендательных алгоритмов в рамках AI Journey Сontest. В задаче Unique RecSys участникам нужно будет создать рекомендательную систему, основанную на подходе обучения с подкреплением, а в Personal AI — предложить традиционные рекомендательные системы для рекомендации банковских продуктов, товаров для маркетплейса и музыкальных треков.

Инклюзивные инструменты, использующие машинное обучение

Взрывной рост популярности машинного обучения в основном связан с тем, что человечество научилось приспосабливать математический аппарат к решению прикладных коммерческих задач. Однако методы машинного обучения можно распространить и на социальную сферу.

Отличным примером адаптации методов машинного обучения к инклюзивным задачам можно назвать распознавание объектов на картинках. С этой задачей обычные люди сталкиваются, если используют функцию FaceID на смартфонах — алгоритмы машинного обучения позволяют определить, кто сейчас использует устройство. Для людей с проблемами зрения существуют методы pattern recognition, направленные на описание окружающей действительности или контента веб-сайта. Умный алгоритм может увидеть, что происходит вокруг пользователя, и озвучить это. Благодаря этим методам людям с проблемами со зрением легче ориентироваться в пространстве и взаимодействовать с окружающими.

В области распознавания звука машинное обучение также демонстрирует впечатляющие результаты. Модели, построенные на основе машинного обучения, способны распознавать и интерпретировать человеческий голос. С помощью таких методов можно автоматически генерировать субтитры, помогая людям с нарушениями слуха понимать, что происходит на видео. Помимо этого, алгоритмы распознавания звука породили целую область аудиоинтерфейсов. Благодаря им люди с нарушениями зрения могут полноценно взаимодействовать с приложениями и сайтами в интернете.

Еще одной очень важной задачей является распознавание жестового языка. Коммуникация с внешним миром на языке жестов обычно сильно осложнена, поскольку не во всех крупных организациях есть сурдопереводчики. Это приводит к проблемам в обучении и профессиональной деятельности среди слабослышащих людей. Именно эту задачу предлагается решить в рамках направления Equal AI контеста AI Journey Contest. Участники конкурса получат видеозаписи, содержащие жесты из русского жестового языка, записанные разными носителями языка: задача заключается в том, чтобы классифицировать жесты на видео.

Применение ИИ в медицине

Технологический прорыв машинного обучения трансформирует и такие консервативные области науки, как биология и медицина. Один из самых понятных примеров — диагностика заболеваний по снимкам. Существуют модели, помогающие врачам анализировать снимки МРТ головного мозга, а во времена пандемии активно развивались модели, направленные на анализ КТ-сканов легких. Однако куда более интересные открытия были совершены на более специфических молекулярных данных.

Крупным научным прорывом последних лет считается нейросеть AlphaFold. Ее основной задачей является предсказание пространственной структуры белка на основании последовательности аминокислот, из которых он состоит. Эта задача чрезвычайно важна для разработки лекарств, поскольку наличие пространственной структуры белка позволяет подбирать молекулы для его таргетирования. Прогнозы AlphaFold достигают точности, сопоставимой с классическими методами моделирования 3D-структур, и преображают фармацевтическую область на наших глазах.

Еще одной важной медицинской задачей, в которой нашли свое применение алгоритмы машинного обучения, можно назвать генерацию новых лекарственных молекул. Генеративные модели — это популярный класс алгоритмов машинного обучения, к таковым относятся, например, модели вроде Kandinsky или Midjourney, позволяющие генерировать изображения по текстовому описанию. Похожим образом работают модели, создающие лекарственные соединения под конкретные белки: основываясь на данных о 3D-структуре белка, они генерируют потенциальные молекулы-ингибиторы. Это ускоряет разработку лекарств и снижает стоимость всего процесса исследований.

В рамках направления Rescue AI контеста AI Journey Сontest участникам предстоит попробовать свои силы в разработке модели, которая способна детектировать хромосомные перестройки в геноме человека по данным эксперимента Hi-C с обогащением. Под хромосомной перестройкой в контексте задачи понимается объект, относящийся к одному из четырех классов. Каждый объект описывается меткой класса, к которому относится объект, а также двумя точками разрывов в геноме человека, то есть координатами перестроенного участка в референсном геноме.

Реклама: ИНН 7707083893, ПАО Сбербанк, LjN8KPps2

Данные о правообладателе фото и видеоматериалов взяты с сайта «N+1», подробнее в Правилах сервиса