Весь мир в одной молекуле: как химия может помочь хранить данные более надежно

@ITMO

Количество информации с каждым годом растет ― по данным Statista, в 2022 году объемы всех данных, накопленных человечеством, составили примерно 97 зеттабайт, а к 2025 году это число, по прогнозам, возрастет до 180 зеттабайт. Сейчас данные в основном хранят на жестких дисках, флеш-накопителях и на облаках. Но так ли надежны эти способы, что еще предлагают ученые, чтобы сохранить информацию на десятки и даже сотни лет, и причем тут химия? Об этом рассказал один из самых цитируемых химиков современности Джордж Уайтсайдс. А мы записали главные тезисы лекции.

Источник: vitstudio / photogenica.ru

Зачем вообще нужны новые способы хранения информации

Для хранения информации в электронном виде сейчас используют разные способы. Данные собирают на жестких дисках, флеш-накопителях (SSD, USB флешки, карты памяти), оптических дисках (CD, DVD, Blu-Ray), а также в облачных хранилищах. Но у каждого способа есть свои недостатки. 

Во-первых, максимальный объем жестких дисков сегодня не превышает 20 терабайт. Тем временем, по оценке International Data Corporation и Seagate, объем производимых данных в мире к 2025 году увеличится до 175-180 зеттабайт. Это приравнивается к одному одному миллиарду терабайт.

Во-вторых, чтобы хранить жесткие диски действительно долго, необходимо создать специальные условия ― например, постоянно поддерживать температуру и влажность на определенном уровне. Из-за этого центры хранения данных будут тратить еще больше энергии и в результате оставлять большой экологический след.

И наконец, информацию, которая хранится традиционным способом, можно взломать и украсть. Поэтому химики и биологи из разных стран мира разрабатывают новые методы, чтобы сохранить любые данные на долгие годы и при этом сделать это с меньшими затратами.

Что же предлагают ученые?

Информация в ДНК

Как правило, чтобы записать информацию на традиционные носители — те же жесткие диски, нужно сперва закодировать ее и представить в виде цепочки битов — единиц и нулей. Процесс записи данных в ДНК начинается с этого же принципа, но затем каждая цепочка битов кодируется в последовательность из нуклеотидных оснований, которые формируют пары ДНК, — аденина, гуанина, цитозина и тимина. В результате информация становится нитью синтетической ДНК. Чтобы прочесть ее, нужно секвенировать (установить последовательность нуклеотидов в молекуле ДНК) и декодировать цепочку. 

Стартапу Catalog уже удалось проверить эту концепцию, сохранив текст всей Википедии в ДНК. Сейчас компания работает над быстрым поиском нужной информации среди больших объемов данных. В будущем это поможет решать разные задачи, например ― выявлять мошенничество в транзакциях или искать новые месторождения нефти.

Информация в синтетической макромолекуле

Схематическое изображение процесса записи портрета Антуана Лорана Лавуазье в одной макромолекуле. Источник: статья в Comptes Rendus. Chimie / comptes-rendus.academie-sciences.fr

Схематическое изображение процесса записи портрета Антуана Лорана Лавуазье в одной макромолекуле. Источник: статья в Comptes Rendus. Chimie / comptes-rendus.academie-sciences.fr

Другой группе исследователей удалось сохранить портрет французского естествоиспытателя и химика Антуана Лорана Лавуазье в одной макромолекуле. Сначала они разбили изображение на 440 пикселей, закодировали их в 440-битный двоичный код, а его, в свою очередь, ― в 264-битную строку. Затем результат кодирования перевели в макромолекулу ― она представляет собой чередующуюся цепочку из восьми мономеров, в которых зашифрована информация о портрете, одного расщепляемого спейсера и десяти масс-спектрометрических меток. Последние нужны, чтобы облегчить расшифровку макромолекулы с помощью масс-спектрометрии.

Информация в смеси органических молекул

Схематическое изображение процесса записи информации с использованием метода со смесью из органических молекул. Источник: ACS Cent Sci / pubs.acs.org

Схематическое изображение процесса записи информации с использованием метода со смесью из органических молекул. Источник: ACS Cent Sci / pubs.acs.org

А научная группа Джорджа Уайтсайдса успешно применила для хранения информации альтернативный метод ― смесь из органических молекул, а не из синтетических. Для эксперимента они выбрали изображение инженера и математика Клода Шеннона, гравюру «Большая волна в Канагаве» художника Кацусики Хокусая, а также текст лекции «Внизу много места» физика Ричарда Фейнмана

Ученые использовали набор из 32 олигопептидов с разной молекулярной массой. Сначала исследователи закодировали информацию в двоичной системе, а затем назначили олигопептид каждому из восьми битов в байте, если он был равен единице. Наконец, закодированную молекулярную информацию (400 килобит) перенесли на матричную пластину, где она распределилась по 1536 микролункам. Последние нужны, чтобы при чтении с помощью масс-спектрометра определить положение бита в сообщении. В итоге, чтобы записать и прочитать закодированное сообщение, ученым понадобилось 20 часов (скорость записи — 8 бит/с, а чтения — 20 бит/с).

Информация в смеси флуоресцентных молекул

Схема записи и чтения информации, применяемая в методе с использованием флуоресцентных молекул. Источник: статья в журнале ACS Cent Sci / www.ncbi.nlm.nih.gov

Схема записи и чтения информации, применяемая в методе с использованием флуоресцентных молекул. Источник: статья в журнале ACS Cent Sci / www.ncbi.nlm.nih.gov

Также научная группа Джорджа Уайтсайдса работает над другим методом хранения информации, и здесь, как рассказывает сам ученый, уже удалось достичь даже более внушительных результатов. С помощью этого метода у исследователей получилось записать порядка 400 килобит информации со скоростью 128 бит/с и прочесть со скоростью 469 бит/с. Достичь этого удалось благодаря струйной печати, молекулам с флуоресцентными красителями и микроскопу с многоканальным флуоресцентным детектором. Принцип хранения информации в этом исследовании похож на предыдущий. Информацию также кодируют в двоичной и молекулярной системе и переносят на матричные пластины с микролунками, которые образуют микроквадраты. Но в отличие от органических молекул, которые отличаются по молекулярной массе, молекулы с флуоресцентными красителями видны благодаря разной окраске. Это намного ускоряет процесс чтения. Сейчас ученые использовали только семь цветов, чтобы зашифровать изображение Майкла Фарадея и первого раздела его книги «Экспериментальные исследования в области электричества», но в будущем количество красителей, как и самой информации, можно увеличить.

В 2022 году Джордж Уайтсайдс стал участником Международной конференции «Роботизация химических технологий», организованной научно-образовательным центром инфохимии ИТМО. На мероприятии ученые, студенты и представители технологических компаний обсудили ряд вопросов роботизации в химии — например, как роботы помогают проектировать умные функциональные материалы, собирать базы данных, развивать новые направления исследований и многое другое.