Продолжая разговор про успехи применения отечественных Big Data продуктов, сегодня мы рассмотрим пример использования Arenadata DB в одной из ведущих отечественных компаний розничного ритейла. Читайте в нашей статье про особенности внедрения распределенной отказоустойчивой MPP-СУБД для аналитики больших данных в Х5 Retail Group.
Зачем ритейлеру еще одно Big Data решение: специфика проекта
Еще в 2016 году компания X5 Retail Group начала выстраивать комплексный data-driven подход к бизнесу, чтобы оперативно и даже заблаговременно принимать управленческие решения на основе данных. Для этого было решено создать глобальную аналитическую платформу, которая будет агрегировать все корпоративные данные, автоматизируя задачи Data Governance и отвечая на вопросы менеджеров и аналитиков компании. При этом пользоваться такой Big Data системой будут более 2000 аналитиков, задавая около 800 конкурентных запросов одновременно. Следовательно, отказоустойчивость и способность выдерживать высокие нагрузки без потери скорости и качества работы стали главными требованиями к СУБД. Также важно критерием выбора СУБД является разнообразие данных, которые планируется хранить и анализировать: сведения о товарах, клиентах и контрагентах, а также чеки и другая торговая информация [1].
Этим требованиям соответствует массивно-параллельная архитектура (Massive Parallel Processing, MPP), суть которой физическом разделении памяти локальных узлов, объединённых в кластер. При том, что системы такого класса потребляют много ресурсов ЦП, памяти и места на жестком диске, они обладают рядом уникальных достоинств. Наиболее значимыми преимуществами MPP-СУБД считаются быстрота обработки даже огромного объема данных за счет распараллеливания операций, простота горизонтального масштабирования и отказоустойчивость [2]. Поэтому ИТ-специалисты X5 Retail Group стали смотреть в сторону MPP-систем, среди которых очень популярна open-source СУБД Greenplum. Ее коммерческим дистрибутивом с профессиональной технической поддержкой от отечественной компании Аренадата является Arenadata DB (ADB). Так в ноябре 2018 года ритейлер начал проект по внедрению ADB в качестве распределенной СУБД для хранения и аналитической обработки больших данных. Примечательно, что это был первый опыт промышленного использования Greenplum среди российского ритейла [1].
Основы Hadoop
Код курса
INTR
Ближайшая дата курса
по запросу
Продолжительность
24 ак.часов
Стоимость обучения
72 000 руб.
Как это было: техническая сторона проекта по внедрению Arenadata DB
В X5 Retail Group уже работает кластер Hadoop, поэтому требовалось организовать взаимодействие ADB c существующей Big Data инфраструктурой. Такая бесшовная интеграция реализована с помощью Java-фреймворка PXF, позволяющего Greenplum параллельно обмениваться данными со сторонними системами за счет самостоятельно написанных коннекторов. Напомним, PXF появился в рассматриваемой MPP-СУБД еще в 2017 году в версии 5. Этот фреймворк представляет собой отдельный процесс на сервере, который общается с сегментами Greenplum через REST API с одной стороны, а с другой использует сторонние Java-клиенты и библиотеки. Таким образом можно организовать обмен данными между Apache HDFS, Hbase и Hive с внешними СУБД через JDBC. Это позволяет строить на базе Greenplum гибкие и производительные платформы обработки больших данных по типу Лямбда-архитектуры: хранить самую свежую информацию, например, в Oracle, а архивные — в Hadoop. При этом пользователь будет видеть все данные в одной таблице за счет механизма партиционирования с подключением внешних таблиц [3]. Подробнее о том, как работает PXF в Greenplum, читайте в нашей новой статье.
Сперва X5 Retail Group строил конфигурацию кластера Arenadata DB на минимальной технической инфраструктуре вычислительных мощностей с возможностью дальнейшего масштабирования при росте нагрузки. Однако, на практике компания столкнулась со следующими проблемами [4]:
- неоптимальное распределение сегментов, что негативно сказалось на производительности кластера при его расширении. Это вообще характерно для MPP-систем из-за зеркальной топологии, которая обеспечивает отказоустойчивость. 6-я версия, вышедшая в конце 2019 года, позволяет побороть этот недостаток с помощью алгоритма consistent hashing, который разрешает перераспределять только часть блоков при добавлении новых узлов в кластер, ускоряя фоновое перераспределение таблиц [5].
- разграничение ресурсов кластера по нагрузке на дисковую подсистему. Это можно решить разделением хранилища данных на сегменты, например, один — только для Greenplum, другой — общий. Так было сделано в компании КРОК, которая предоставляет ADB по SaaS-модели [6].
Greenplum для инженеров данных и аналитиков данных
Код курса
GPDE
Ближайшая дата курса
27 января, 2025
Продолжительность
24 ак.часов
Стоимость обучения
72 000 руб.
Тем не менее, даже при перечисленных сложностях Arenadata DB позволила X5 Retail Group построить аналитический слой детальных данных с описанной моделью, бизнес-владельцами доменов, словарем данных и привязкой к другим функциям Data Governance. В результате ритейлер получил надёжный сервис, доступный любому аналитику компании, чтобы принимать быстрые решения на основе Big Data [4]. Примечательно, что этот проект вошел в число победителей профессионального ИТ-конкурса GlobalCio «Проект года-2019» в номинации «Выбор экспертов», наряду с другими системами на базе ADB и Arenadata Hadoop, о чем мы писали здесь [7]. А общую удовлетворенность заказчика продуктами Аренадата подтверждает факт использования и другого решения компании – кластерной колоночной СУБД Arenadata Quick Marts [1], о которой мы расскажем в следующей статье.
Пройти образовательные курсы и стать профессионалом по ADH и ADB поможет наш лицензированный учебный центр повышения квалификации «Школа Больших Данных» — единственный авторизованный партнер компании Arenadata по сертификации специалистов и обучению в Москве:
- Администрирование кластера Arenadata Hadoop
- Основы Arenadata Hadoop
- Greenplum для инженеров данных
- Greenplum для инженеров данных
- Администрирование Greenplum / Arenadata DB
- Интеграция Hadoop и NoSQL
Источники
- https://arenadata.tech/about/cases/x5-retail-dwh.php
- https://habr.com/ru/company/croccloudteam/blog/485896/
- https://habr.com/ru/company/ibs/blog/343640/
- https://globalcio.ru/live/projects/3309/
- https://habr.com/ru/post/474008/
- https://habr.com/ru/company/croccloudteam/blog/485896/
- https://arenadata.tech/about/news/proekt-x5-retail-group-i-arenadata-stal-pobeditelem-konkursa-proekt-goda-2019/