Какие термины помогут ориентироваться в мире больших данных

@rg
Фото: depositphotos.com

Big Data

С точки зрения транскрипции правильно говорить "биг дэйта", но если вы скажете "биг дата", криминала не будет - такой вариант произношения уже прижился, и, не исключено, именно он однажды войдет в словари как нормативный вариант. Другое дело, почему data, а не datas, ведь "данные" - их много. Отвечаем: слово data является заимствованием из латинского языка, где множественное и единственное число образуются не так, как в английском, и data - это как раз форма множественного числа от datum. В общем, говорить "дата" можно, а "датас/дэйтас" нет. Русский эквивалент - "большие данные" - тоже уверенно вошел в оборот, хоть он и в два раза длиннее.

"Большие данные - это когда больше терабайта", "большие данные - это объем информации, который невозможно обработать на одном компьютере", "большие данные - это новая нефть". Сколько людей, столько и определений big data. Формальной дефиниции не существует: неясно, где граница между большими и просто данными.

Изначально понятие big data описывалось через три V: объем (volume) - очень много информации; скорость (velocity) - данные быстро увеличиваются и обрабатываются; многообразие (variety) - в работу идут и числа, и тексты, и графические образы, и другие виды данных, в том числе неструктурированных.

Потом количество V увеличилось, аналитики предложили добавить veracity - достоверность, viability - жизнеспособность, value - ценность для экономики, науки и общества, variability - переменчивость, visualization - возможность образного представления.

Ясно одно: речь идет не просто о горах данных, которыми зачем-то забивают сервера научные лаборатории и коммерческие компании. Люди стремятся не только накапливать терабайты информации, но и извлекать из нее пользу. Поэтому big data - это не столько про объем, сколько про подходы, инструменты, методы обработки данных, которые помогают извлечь из тонн цифровой "руды" грамм "золота". Например, в квинтиллионах информации, собираемой телескопами NASA, найти следы новой планеты.

Data science

Чаще всего используется английская версия - "дата сайнс" или "дэйта сайнс". Русский аналог: "наука о данных".

Это наука о методах анализа данных и извлечения из них ценной информации. Data science как академическая дисциплина формируется с начала 2010-х. Чтобы стать специалистом в этой области, необходимо прежде всего быть отличным математиком - знать матмоделирование, матстатистику, комбинаторику, теорию графов и многое другое. Ну и, конечно, уметь программировать. Надо заметить, пока спрос на дата-сайентистов сильно превышает предложение (особенно в России).

Машинное обучение

Русское словосочетание "машинное обучение" используется так же часто, как английское machine learning (что-то вроде "мэшин лернинг").

Это область искусственного интеллекта - разработка программ, способных учиться и принимать решения, исходя из собственного опыта. Машины обрабатывают и анализируют поступающие данные, чтобы впоследствии использовать их для прогнозирования трендов, в том числе поведения пользователей.

"Именно благодаря машинному обучению поисковая машина понимает, какие результаты (и рекламу) показывать в ответ на ваш запрос. Когда вы просматриваете почту, большая часть спама проходит мимо вас, потому что он был отфильтрован с помощью машинного обучения. Если вы решили что-нибудь купить на Amazon.com или заглянули на Netflix посмотреть фильм, система машинного обучения услужливо предложит варианты, которые могут прийтись вам по вкусу. С помощью машинного обучения Facebook решает, какие новости вам показывать, а Twitter подбирает подходящие твиты" - с этих слов начинается книга "Верховный алгоритм" исследователя искусственного интеллекта Педро Домингоса.

Data mining

Data mining переводится с английского как "обнаружение знаний в базах данных", что отражает суть понятия, но звучит уж слишком длинно. Поэтому принято говорить "дата/дэйта майнинг", "майнить" - извлекать данные, "намайнить" - извлечь.

Датамайнингом называют как технологии, так и процесс обнаружения в сырых данных неизвестной и полезной информации. Основу data mining составляют всевозможные методы классификации, моделирования и прогнозирования. В научный обиход термин ввел израильский математик Григорий Пятецкий-Шапиро - еще в 1989 году.

Облака

Говорят как "облако"/"облачный", так и cloud (например, cloud computing - облачные вычисления).

Держать в голове все задачи на день, месяц, год не очень-то удобно, поэтому мы записываем их в блокнот или заносим на виртуальную доску. Точно так же наш компьютер не может хранить на своем диске сотни гигабайт видео, фоток и музыки - их приходится закачивать на такие сервисы, как Google Drive или Яндекс.Диск.

Мы имеем постоянный доступ к своим данным - через интернет, но физически они находятся на виртуальных серверах соответствующих компаний. При этом пользователь платит лишь за место в хранилище, а это гораздо дешевле аренды целого сервера. Естественно, для работы с большими данными "облака" просто необходимы.

Суперкомпьютер

Это слово начало входить в русский язык еще в конце 1960-х, когда в СССР появился первый суперкомпьютер БЭСМ-6, способный выполнять 1 млн операций в секунду.

Речь идет о вычислительной машине, значительно превосходящей по техническим параметрам и скорости обработки данных обычные персоналки. Как правило, она представляет собой целую систему высокопроизводительных компьютеров. Используется для решения задач в самых разных областях науки и технологий: от разработки атомного оружия до моделирования новых лекарств. Самые мощные российские суперкомпьютеры - "Ломоносов" и "Ломоносов-2" - находятся в Московском государственном университете им. М.В. Ломоносова.

Интернет вещей

Популярен и русский вариант, и английский - internet of things, а также аббревиатура IoT.

Вслед за компьютерами и смартфонами в Сеть вышли фитнес-трекеры, чайники, стиральные машины, телевизоры, датчики и сенсоры. И все же интернет вещей - это не включение света посредством брюк или удаленный спуск воды в унитазе через смартфон. Есть масса примеров внедрения технологий IoT в медицине, спорте, сельском хозяйстве, промышленности. Например, BigBelly - урна, которая предупреждает сотрудников городских служб по уборке мусора, что ее пора опорожнить. Локальная сеть анализирует данные, полученные от каждой урны, что позволяет планировать частоту вывоза бытовых отходов.

В 1990 году выпускник Массачусетского технологического института, один из отцов протокола TCP/IP Джон Ромки создал первую в мире интернет-вещь. Он подключил к Сети свой тостер. Ожидается, что в 2020 году IoT объединит более 30 млрд устройств.

Научный фестиваль Nauka 0+

6-8 октября в Москве пройдет фестиваль Nauka 0+. На 90 площадках понятным, "человеческим" языком будут рассказывать о том, чем занимаются ученые, как научный поиск улучшает качество жизни, какие перспективы он открывает. Подробнее узнать о мероприятих Nauka 0+ можно в специальном номере журнала "Кот Шрёдингера".

Данные о правообладателе фото и видеоматериалов взяты с сайта «Российская газета», подробнее в Правилах сервиса