Как управление большими данными обеспечивает бизнес-успех

Как управление большими данными обеспечивает бизнес-успех

Изображение: Shutterstock.ai

Дата-инженер международной компании Михаил Мокшанов рассказал об инновационных инструментах, которые помогают усовершенствовать сбор и аналитику больших данных.

Глобальная датасфера – единое информационное пространство – неуклонно расширяется. В 2011 году было сгенерировано 1,8 зеттабайт информации. К 2025-му, по прогнозам аналитических агентств, общий объем данных в мире составит от 175 до 200 зеттабайт. Данные представляют собой исключительную ценность для бизнеса, они необходимы для стратегического планирования и достижения конкурентных преимуществ. Но чтобы воспользоваться этими преимуществами, требуется владение современными инструментами сбора, хранения и анализа данных, говорит эксперт в этой области Михаил Мокшанов. В прошлом Михаил разрабатывал и внедрял проекты, обеспечивающие работу с большими данными, для «Внуковских авиалиний» и федеральных государственных ведомств, включая МЧС России, а сегодня занимает позицию дата-инженера в израильском стартапе Maelys со штаб-квартирой в Нью-Йорке.

Хранение и целостность данных

Для сбора данных компании использует внешние и внутренние источники: во-первых, – это СМИ, соцсети, блоги, форумы и т. п., во-вторых, – свои собственные архивы, базы данных, хранилища. Обеспечение целостности данных и управление их объемом – один из главных вызовов, с которыми сегодня сталкиваются дата-инженеры. Для этого цифровые активы могут переноситься в облако, объясняет Михаил Мокшанов.

В зону ответственности Михаила входит руководство присутствием данных компании на облачных платформах, обеспечивающих их сохранность и удобство доступа для аналитики. Он также управляет их миграцией: своевременное обновление системы хранения данных необходимо для эффективной работы бизнеса.

«В зависимости от потребностей бизнеса, моя команда и я занимаемся миграцией данных, – рассказывает Михаил. – Год назад было принято стратегическое решение об уходе из локальных хранилищ данных и Microsoft Azure. В результате было перенесено центральное аналитическое хранилище и все связанные с ним пайплайны в Google Cloud Platform. Теперь на очереди миграция транзакционной системы из Azure SQL Server на Amazon RDS».

Михаил Мокшанов создал и внедрил решения, обеспечившие миграцию данных, целью которой была централизация хранения данных компании и аналитики, собираемой с сайта Maelys при помощи Google Analytics. Чтобы обеспечить возможность обработки данных в новой технологической среде, Михаил решил сложную задачу по переписыванию кода. Благодаря его участию данные Google Analytics были успешно интегрированы с остальной частью системы, что сыграло ключевую роль в бизнес-решениях компании, позволив более оперативно и точно реагировать на изменения рынка.

Контроль качества данных

Анализ больших данных может давать ошибочные результаты, если в систему попадают данные плохого качества, – ситуация, достаточно вероятная из-за постоянно растущего объема и разнообразия собираемых данных. Чтобы обеспечить безошибочность интерпретации результатов, Михаил Мокшанов применяет в своей работе инструменты с использованием машинного обучения, повышающие качество анализируемых данных. Этот подход используется в том числе при работе с веб-сайтом Maelys.

«Каждое действие пользователя отслеживается, фиксируется и собирается с сайта с помощью скрипта Google Analytics, а затем транслируется в хранилище данных на BigQuery в таблицу events, – объясняет эксперт. – Задача состоит в извлечении из этих данных полезной информации. Например, бизнесу хочется построить на основании этих данных собственную модель атрибуции. Первый шаг к этому – выделить из полученных данных уникальных пользователей, покупателей».

Для этого Михаил применяет разнообразные методы идентификации – от id-сессии, геолокации, содержимого корзины и временного интервала до версии используемого программного обеспечения и cookies. После успешной идентификации следует присвоение каждому пользователю уникальных идентификаторов, отбраковка неполных или «рваных» данных и удаление дубликатов.

Операция, называемая «повышением качества» анализируемых данных, направлена на улучшение точности интерпретации результатов. В маркетинге этот процесс имеет высокое значение: качество данных напрямую влияет на принятие решений о показе рекомендаций, что, в свою очередь, сказывается на эффективности рекламных кампаний.

В результате автоматизации и точной обработки сырых данных с использованием внедренных Михаилом инструментов искусственного интеллекта компания Maelys смогла значительно улучшить эффективность своих маркетинговых стратегий, оптимизировать рекламный бюджет и повысить конкурентоспособность, став значимым игроком глобальной косметической отрасли. Рекомендательная система, построенная на основании выявленных пользовательских предпочтений, позволила компании увеличить свои доходы более чем на 20%.

Прогнозирование на основе анализа данных

Чтобы построить на основе анализа больших данных прогностическую модель, необходимо выявить в общем объеме информации скрытые закономерности и причинно-следственные связи. Михаил Мокшанов решает задачу интеграции больших данных в бизнес-стратегию, внедряя в системы поддержки принятия решений машинное обучение, что позволяет прогнозировать на основе анализа исторических данных тенденции спроса на будущее в диапазоне от месяца до года. Этот подход Михаил применил, например, для прогнозирования продаж в компании Trade Lock, занимающейся реализацией дверных замков и фурнитуры в России и странах СНГ.

«Данные о ежедневных продажах продукта в течение последних нескольких лет были подготовлены и обработаны алгоритмами, реализованными в виде кода на Python и Jupyter, – объясняет Михаил. – Подбор параметров и обучение модели были осуществлены на исторических данных, после чего использовалась модель для генерации прогнозов».

Благодаря системе прогнозирования спроса руководство Trade Lock получило возможность адаптироваться к меняющимся рыночным условиям и принимать обоснованные решения относительно продаж на год вперед. Оптимизация запасов и ресурсов, корректировка закупок и снижение издержек на хранение непроданных товаров, которых удалось добиться благодаря точному прогнозированию, положительно сказались на прибыльности бизнеса.

Защита данных

С ростом объема больших данных, проектов по их анализу и количества причастных к аналитическим инструментам пользователей многократно увеличивается риск утечки информации. История показывает, что это чревато серьезными юридическими последствиями и потерей репутации, поэтому защита данных от утечек и несанкционированного доступа является для бизнеса важным аспектом работы. Чтобы обезопасить информацию, Михаил Мокшанов внедряет встроенные средства защиты.

Так, для компании Trade Lock Михаил разработал и внедрил многоэтапную систему безопасности с динамически управляемым доступом. Система способна автоматически адаптироваться к изменению прав и ролей сотрудников компании, регулируя их доступ к чувствительной информации. Надежность защиты гарантируют современные методы шифрования и аутентификации.

«На первом этапе система отсекает несанкционированный доступ благодаря доменной аутентификации с помощью Microsoft Active Directory, – говорит Михаил. – Второй этап – авторизация, в ходе которой сервер аналитики определяет роль пользователя и в зависимости от нее раздает права на доступ к тем или иным данным».

Регуляция доступа к данным, разработанная и внедренная Михаилом Мокшановым, обеспечила высокий уровень защиты чувствительной информации и помогла сократить риски их утечки, сделав бизнес компании Trade Lock более устойчивым и эффективным. Немаловажно, что алгоритмы на основе машинного обучения имеют свойство с течением времени работать все надежнее, поскольку постоянно адаптируются и обучаются на основе новых данных.

Сфера сбора, обработки, хранения и анализа данных представляет собой динамично развивающуюся область, в которой постоянно появляются новые технологии и методологии. Для успешной реализации сложных проектов требуются не только глубокие знания в области традиционных методов работы с данными, но также и навыки применения методов машинного обучения и искусственного интеллекта, которые при правильном использовании имеют уникальную способность быстро адаптироваться к изменениям без прямого участия человека. Все это позволяет на новом уровне интегрировать техническую экспертизу с бизнес-аналитикой. Владение новейшими инструментами для работы с большими данными дает бизнесу конкурентные преимущества и гарантирует успех в долгосрочной перспективе.

Анализ
×
Мокшанов Михаил
Amazon.com, Inc.
Сфера деятельности:Розничная торговля
114
Google
Сфера деятельности:Образование и наука
122
Microsoft
Сфера деятельности:Связь и ИТ
167