Генетика в мире информационных технологий

@Novosibirskij akademgorodok



Как большие данные объединяют биологов и математиков

Состоявшийся в сентябре этого года Международный технологический Форму «Технопром-2019» прошел, если можно так выразиться, под знаком «цифровизации». Принципиально важные, знаковые секции были в той или иной мере посвящены внедрению цифровых технологий в различные сферы производственной и научной деятельности, а также рассматривали вопросы применения «цифры» в организации жизненного пространства. Как ни странно, не стала исключением и генетика.  Мало того, в программе Форума вопросы развития генетических технологий практически вышли на передний план.  Во всяком случае, стратегическая сессия, посвященная биоинформатике, центрам генетических технологий и центрам геномных исследований, оказалась наиболее насыщенной по форме и довольно интригующей по содержанию.

Возможно, непрофессионалам трудно понять, для чего сегодня пытаются так тесно сопрячь биологические науки с математикой и информатикой. Как мы знаем, Институт цитологии и генетики СО РАН уже не первый год освещает указанную тенденцию, подчеркивая важность для дальнейшего развития научных исследований именно такого «творческого союза».  Причем, вопрос не ограничивается только лишь фундаментальными исследованиями. Он также затрагивает и весьма актуальные практические приложения. По большому счету, генетика и генетические технологии выступают в наше время в роли драйвера развития таких принципиально важных отраслей, как сельское хозяйство, микробиологическая промышленность и медицина. Отсюда вытекает необходимость создания в нашей стране национальных центров мирового уровня по геномным исследованиям - что нашло отражение в соответствующих нацпроектах и федеральных программах. Как раз эти вопросы и были обсуждены на упомянутой стратегической сессии. Соответственно, была освещена роль ИЦиГ СО РАН в реализации этих далеко идущих планов.

В первую очередь предстояло подробно разъяснить аудитории, чем конкретно продиктована необходимость разработки новых математических подходов к анализу генетических данных. Почему на сегодняшний день эта задача так актуальна  для генетики и для развития генетических технологий? Напомним, что не так давно у нас в стране состоялся конкурс на создание национального центра мирового уровня по геномным исследованиям и фактически параллельно – конкурс на создание национального центра мирового уровня по математическим исследованиям. Основная идея прошедшей стратегической сессии как раз и затрагивала вопрос объединения двух направлений, поскольку это объединение в нынешних условиях - естественно и необходимо.

Чем конкретно определяется такая необходимость? Этот вопрос популярно разъяснил научный руководитель ИЦиГ СО РАН академик Николай Колчанов. По словам ученого, в наше время генетика стала источником беспрецедентно огромных данных. Еще в 2015 году в одном из академических изданий было предсказано, что к 2025 году суммарный объем геномной информации в несколько раз превысит объем данных, который будет накоплен в астрономии и в социальных сетях. В настоящее время становится понятным, что темпы накопления генетической информации превысили все ожидания. К примеру, объём хранилища генетических данных одного только Broad Institute (США) превышает объём  хранилища такой социальной сети, как Facebook.

Годовой объем получаемой  здесь геномной  информации составляет примерно 7 петабайт (включая  как  аннотированные  геномные последовательности, так и первичные экспериментальные данные). По словам ученого, это соответствует: а) 200 геномам человека с  30 кратным покрытием; б) 6,6 миллиардам твитов  в  социальных сетях или в) 3 300 полнометражным фильмам в HD разрешении. Подчеркиваем, речь идет только об одном институте. А таких институтов несколько.

Как подчеркнул Николай Колчанов: «Темпы роста объёмов геномных данных на порядок опережают возможности их биоинформатического  анализа».  По его мнению, указанные темпы роста геномной информации можно смело «умножать на четыре или пять». Иными словами, упомянутый прогноз четырехлетней давности давал существенную недооценку этого роста. Поэтому ученые сегодня стоят перед необходимостью понять сами подходы к решению затронутых здесь вопросов. Первый вопрос касается хранения гигантских объемов информации, второй вопрос затрагивает обработку столь больших генетических данных. Как мы понимаем, первый вопрос решается чисто технически. Что касается второго вопроса, то он всё еще требует специального обсуждения. 

В первую очередь для обработки больших данных, отметил Николай Колчанов, используются средства машинного обучения и искусственного интеллекта. Учитывая гигантский объем данных, мы уже не можем вручную, «глазом» (как это было принято на протяжении последних пятисот лет) обработать столь внушительный массив информации. Такую задачу просто невозможно осуществить физически. Поэтому сейчас активно разрабатываются различные методы автоматической обработки данных – так называемая «компьютерная инженерия знаний». Речь идет об автоматическом извлечении информации из различных источников. В мире уже существует насколько таких систем (например, система Watson компании IBM).

В ИЦиГ СО РАН также разрабатывается подобная система. На ее основе можно автоматически извлекать информацию из миллионов научных публикаций и накапливать их в соответствующих базах знаний, что является важнейшим шагом для проведения фундаментальных исследований на современном уровне, а также серьезно поможет осуществлению прикладных разработок.

Как заметил по этому поводу советник директора ИЦиГ СО РАН Юрий Зыбарев, современным катализатором в развитии технологий обработки больших данных являются методы и технологии искусственного интеллекта. Данных теперь настолько много, отметил ученый, что извлечь из них полезную информацию традиционными методами достаточно сложно. Именно поэтому методы и технологии искусственного интеллекта приобретают теперь стратегическое значение для обработки генетических данных и их приложений.  На его взгляд, особая актуальность развития  биоинформатики подтверждается правительственными решениями в этой области. Мы говорим сейчас о курсе на «цифровизацию» экономики, а также о решениях по созданию национальных исследовательских центров мирового уровня, включая и такие направления, как геномные исследования и генетические технологии.

Напомним, что совсем недавно ИЦиГ СО РАН вошел в состав консорциума «Курчатовский геномный центр», и теперь может называться Национальным центром мирового уровня по геномным исследованиям. На данный момент он представляет собой большой комплекс из нескольких институтов, в котором задействовано почти полторы тысячи сотрудников. В его распоряжении имеется 20 тысяч га сельхоз земель и две клиники. Основные направления деятельности включают в себя и сельское хозяйство, и медицину, и биотехнологии, а также фундаментальную науку.

Фактически, ИЦиГ СО РАН стал одним из важнейших элементов созданной системы, реализующей стратегические задачи в области геномных исследований. Почему у него появилась такая возможность?  Вот некоторые красноречивые факты, отражающие место Института в мировой науке. Так, согласно данным Web of Science за 2018 год, именно ИЦиГ СО РАН вносит весомую долю публикаций в журналах категории Genetics/Heredity с аффилиацией «Россия», «Российская академия наук».  Институт активно занимается исследованиями, имеющими отношение к созданному консорциуму и тем задачам, которые перед ним поставлены. В данном случае речь идет о генетике для сельского хозяйства и о генетике для микробиологической промышленности. В качестве наиболее ярких примеров можно привести секвенирование и построение референсной последовательности генома пшеницы, цикл работ по «маркерной» селекции - новые маркеры для отбора устойчивых и продуктивных форм, а также апробацию методов геномного редактирования (получение голозерного ячменя из пленчатого сорта).

Думаю, в свете сказанного также становится совершенно очевидной важная роль ИЦиГ СО РАН в деле развития региона и в частности – в деле развития Новосибирского научного центра. Отметим, что Институт реализует проект «Центр генетических технологий», который является частью проекта «Академгородок – 2.0».

Олег Носков

Анализ
×
Колчанов Николай
Зыбарев Юрий
Носков Олег
РАН
Сфера деятельности:Образование и наука
196
ИЦиГ СО РАН
Сфера деятельности:Образование и наука
5