Группа учёных из Сколковского института науки и технологий, Венского университета и Университета «Сириус» разработала рекомендации по применению методов многозадачного обучения для совершенствования процесса создания новых лекарств. Результаты исследования опубликованы в Journal of Computer-Aided Molecular Design.
В университетах студенты часто проходят связанные курсы: например, одновременное изучение физики и математики позволяет лучше понять оба предмета. Подобным образом изучение нового языка даётся значительно легче тем, кто уже владеет родственным языком. То же самое часто происходит в машинном обучении. Нейронная сеть лучше понимает несколько «предметов» если она «изучает» их одновременно. Учитывая то, что нейронные сети — это один из лучших подходов для прогнозирования биологических свойств новых молекул, возникает вопрос: как помочь нейронной сети одновременно изучить и спрогнозировать свойства молекул в отношении нескольких биологических мишеней?
Исследователи взяли для анализа три датасета: один — с информацией о противовирусной активности молекул и два — с информацией о воздействии молекул на различные белки в нашем организме. Датасеты различались полнотой информации по каждому из белков или вирусов. В процессе исследования, учёные выяснили, что добавление дополнительных данных в датасет является эффективным методом улучшения прогнозирования. Кроме того, они показали, что результат тем лучше, чем информативнее исходный датасет. В результате проведённой работы они подготовили набор рекомендаций по использованию технологии «обогащения» данных для улучшения качества и стабильности прогноза, а также привели способы объективной оценки этого улучшения.
«Многозадачное обучение широко применяется во многих областях науки. Не удивительно, что оно стало всё чаще применяться для создание новых лекарственных средств. Однако возможности такого подхода до конца не изучены, что оставляет перед нами множество нерешённых задач, — отмечает ведущий автор исследования, выпускница аспирантуры Сколтеха Екатерина Соснина. — Мы вдохновились возможностью применения многозадачного обучения для поиска кандидатов в лекарственные средства и провели работу по поиску путей улучшения применения данного подхода. Выполнение предложенных нами рекомендаций позволит повысить точность предсказания моделей и ускорить процесс поиска новых потенциальных лекарственных средств».
Контакты:
Skoltech Communications
+7 (495) 280 14 81