Структура ранее неизвестных природных углеводов сейчас устанавливается, в основном, с помощью ЯМР. Этот трудоемкий процесс использует опубликованные данные о специфических сигналах (structure-reporting signals), особенно для ядер13С. Точность моделирования спектров ЯМР и качество машинного обучения сильнейшим образом зависят от отнесения сигналов в ЯМР-спектроскопических базах данных.
В рамках работы по контролю качества данных в проекте Carbohydrate Structure Database (CSDB) коллектив Группы гликоинформатики Лаборатории углеводов и биоцидов им. академика Н.К. Кочеткова ИОХ РАН провел систематический поиск ошибок в данных ЯМР, опубликованных за полвека использования этого метода в гликобиологии. Поиск основывался на потоковом сравнении десятков тысяч опубликованных и симулированных спектров и экспертном анализе несовпадений.
Среди найденных ошибок в корреляциях структура-спектр 270 приходятся на ошибки в оригинальных публикациях. На основании проведенного анализа структуры и/или отнесение спектров в CSDB были исправлены, а ошибочные статьи были —промаркированы.
Источник: K.V. Kazantsev, Ph.V. Toukach. Remediation of the NMR data of natural glycans,International Journal of Biological Macromolecules,2024, ePub 137042, DOI:10.1007/s00216-024-05383-w