Источник:
Аналитика данных — одна из самых востребованных и перспективных сфер. По данным Glassdoor, с 2016 года количество вакансий в этой области выросло на 480%. Вместе с директором по управлению данными в GeekBrains Максимом Михайловым разобрались, как мы взаимодействуем со сферой каждый день и как попасть в профессию.
Максим Михайлов
Директор по управлению данными в GeekBrains
Data science и аналитика данных: в чем разница
Большие данные, или big data, — это совокупность методов и инструментов обработки данных. Современный человек — и их источник, и интерпретатор. Мы отдаем данные, когда, например, заказываем еду или слушаем музыку онлайн. Мы обрабатываем их, когда читаем новый пост в соцсетях или заходим в музыкальные плейлисты других пользователей.
Для бизнеса этот «цифровой след», как и другие источники данных, — инструмент для принятия управленческих решений. Например, сервис замечает, что мы стали реже слушать музыку в приложении. Команда может попытаться восстановить интерес клиента, предложив ему скидку и тем самым укрепив с ним отношения.
В нашей компании большие данные копятся в
Data science похожа на аналитику данных, но предлагает более глубокое прогнозирование и работу с гипотезами. Например, data scientist может создать модель вероятности оттока клиентов. Он строит предиктивные системы — модели, предсказывающие вероятное будущее.
Как аналитики данных меняют мир прямо сейчас
Звучит пафосно, но аналитика данных меняет мир. Например, современные беспилотники от Mobileye или Tesla распознают маневры других машин, а еще получают от них данные о перекрытых дорогах. Это стало возможным благодаря сбору и анализу огромного массива данных по концепции True Redundancy («истинная избыточность»). Беспилотники собирают множество информации и с системы камер, и с радаров и лидаров.
Это называется компьютерным зрением — оно помогает машинам понимать мир с помощью распознавания образов и объектов вокруг. Без аналитики данных компьютерное зрение не может существовать. Сегодня оно применяется во множестве сфер — от систем безопасности до анализа рентгеновских снимков. Согласно метаисследованию Lancet, в медицине машинное зрение, совмещенное с нейросетями, может давать почти такие же точные диагнозы по снимку, как и врачи.
В свою очередь, компьютерное зрение — часть еще более востребованного направления data science: машинного обучения. Идея в том, чтобы не прописывать компьютеру алгоритм действий, а определить правила и цель задачи. Компьютер должен самостоятельно найти лучшее решение на основе анализа массивов данных.
Разберем преимущества машинного обучения на простом примере. Компьютерный инженер Артур Самуэль любил играть в шашки — в 1950-х годах он даже написал программу для игры с компьютером. В один момент ему надоело постоянно выигрывать, и он предложил компьютеру сыграть с самим собой. Машина смогла собрать больше данных о стратегии. Когда он решил снова поиграть против системы, то стал чаще проигрывать. Так машинное обучение помогло ЭВМ превзойти навыки Артура в шашках.
Еще один пример из медицины — работа data-ученых из Google AI Healthcare. В 2019 году они создали систему обучения для шкалы Глисона. Это один из самых популярных способов распознавания рака простаты, который был создан в 1960-х годах. Точность в оценке после машинного обучения составила 0,7. Для сравнения: точность диагноза, который поставили 26 врачей, составляла 0,6.
Data science помогает и бизнесу. Например, одна из базовых практик компаний — cross-sell, перекрестные продажи. Это взаимосвязь товара, который интересует покупателя, с другими товарами из ассортимента. Аналитик данных может разбить клиентов на сегменты — выделить тех, кто покупает вместе с одним товаром еще и связанный. При следующей покупке пользователь увидит рекомендации по товарам, которые могут ему пригодиться. Так аналитик данных помогает привлекать и удерживать клиентов.
Другой бытовой пример — доставка продуктов. Продвинутый алгоритм таких сервисов со временем все лучше понимает вкусы пользователя. Он учится на данных и предлагает блюда или продукты, которые чаще всего заказывает клиент. Это экономит время покупателя. По похожей механике работают ленты соцсетей. Они понимают, какой контент интересует читателя, и предлагают подписаться на страницы релевантных блогеров.
Ключевые профессии
В аналитике больших данных есть несколько ключевых профессий.
Дата-инженер
Это специалист, который собирает разрозненные данные в одну базу. Например, в компании может быть десять разных систем — от маркетинга и продаж до отчетов HR-отдела. У каждой из них свои виды данных и логика. Задача инженера — объединить системы и понять, как выстроить работу базы.
Еще дата-инженер закладывает стандарты работы компании с данными. Он выбирает, например, между реляционными и нереляционными базами. В первом варианте наборы данных объединены ключом: связь между разными строками легче исследовать. В нереляционных базах другие виды связи — это могут быть пары «ключ — значение» или даже графы. Они надежнее и быстрее реляционных, но требуют специфических способов обработки.
Например, вот так может выглядеть реляционная база сервиса по доставке продуктов:
Таблица с данными по заказам
Таблица с данными по складам
Таблица с данными о клиентах
Таблица с данными о курьерах
Последние три таблицы объединяет по ключам таблица с данными по заказам. В ней есть и дополнительные значения: например, общая сумма заказа, комментарии клиента и город доставки.
Data scientist
Этот специалист исследует уже готовые данные. Его основная задача — применять правильные методы, которые ответят на вопросы бизнеса. Data scientist перебирает разные модели и выдвигает гипотезы. В этом и заключается роль специалиста: он работает на стыке информатики, математики и знания бизнеса, чтобы закрыть его потребности.
Работа совмещает в себе и техническую, и творческую составляющую. Хороший data scientist толкает вперед R&D компании — разработку и развитие новых проектов. Поэтому он может даже рекомендовать, какой новый продукт стоит разработать.
Как стать аналитиком данных
Какая бы сфера вас ни интересовала, начать нужно с SQL — это базовый язык для изучения данных. После этого важно разобраться с библиотеками Python и прокачать навыки в Excel. Идеально, если у вас будет время изучить язык R для математической статистики.
Будущий аналитик может выбрать любое направление обучения — например, работу с маркетинговыми данными или данными продукта. С развитием hard skills и опытом станет ясно, куда идти — в ученые или в инженеры. Но серьезная аналитика всегда находится на стыке информатики, математики и знания продукта. Это значит, что не обойтись без теории вероятностей и матстата.
Другой важный элемент успешного развития — мотивация, ведь hard skills — это время, конвертированное в обучение. На то, чтобы изучить основы профессии инженера, понадобится примерно два-три года. Не очень большой срок — но это только начало. Чтобы стать серьезным data scientist, нужно гораздо больше времени.
Не бойтесь, что через пару лет профессия потеряет актуальность. Несколько десятков лет назад случилась технологическая революция: техника заменила «голубых воротничков». Следующий этап — соревнование с ИИ «белых воротничков». Чтобы создать машины, которые будут принимать точные управленческие решения, нужны усилия множества дата-сайентистов. Специалисты, которые смогут разрабатывать такие решения, будут актуальны еще много лет.