Продолжая разговор про успехи применения отечественных Big Data продуктов, сегодня мы рассмотрим пример использования Arenadata DB в одной из ведущих отечественных компаний розничного ритейла. Читайте в нашей статье про особенности внедрения распределенной отказоустойчивой MPP-СУБД для аналитики больших данных в Х5 Retail Group.
Зачем ритейлеру еще одно Big Data решение: специфика проекта
Еще в 2016 году компания X5 Retail Group начала выстраивать комплексный data-driven подход к бизнесу, чтобы оперативно и даже заблаговременно принимать управленческие решения на основе данных. Для этого было решено создать глобальную аналитическую платформу, которая будет агрегировать все корпоративные данные, автоматизируя задачи Data Governance и отвечая на вопросы менеджеров и аналитиков компании. При этом пользоваться такой Big Data системой будут более 2000 аналитиков, задавая около 800 конкурентных запросов одновременно. Следовательно, отказоустойчивость и способность выдерживать высокие нагрузки без потери скорости и качества работы стали главными требованиями к СУБД. Также важно критерием выбора СУБД является разнообразие данных, которые планируется хранить и анализировать: сведения о товарах, клиентах и контрагентах, а также чеки и другая торговая информация [1].
Этим требованиям соответствует массивно-параллельная архитектура (Massive Parallel Processing, MPP), суть которой физическом разделении памяти локальных узлов, объединённых в кластер. При том, что системы такого класса потребляют много ресурсов ЦП, памяти и места на жестком диске, они обладают рядом уникальных достоинств. Наиболее значимыми преимуществами MPP-СУБД считаются быстрота обработки даже огромного объема данных за счет распараллеливания операций, простота горизонтального масштабирования и отказоустойчивость [2]. Поэтому ИТ-специалисты X5 Retail Group стали смотреть в сторону MPP-систем, среди которых очень популярна open-source СУБД Greenplum. Ее коммерческим дистрибутивом с профессиональной технической поддержкой от отечественной компании Аренадата является Arenadata DB (ADB). Так в ноябре 2018 года ритейлер начал проект по внедрению ADB в качестве распределенной СУБД для хранения и аналитической обработки больших данных. Примечательно, что это был первый опыт промышленного использования Greenplum среди российского ритейла [1].
Основы Hadoop
Код курса
INTR
Ближайшая дата курса
по запросу
Продолжительность
24 ак.часов
Стоимость обучения
72 000 руб.
Как это было: техническая сторона проекта по внедрению Arenadata DB
В X5 Retail Group уже работает кластер Hadoop, поэтому требовалось организовать взаимодействие ADB c существующей Big Data инфраструктурой. Такая бесшовная интеграция реализована с помощью Java-фреймворка PXF, позволяющего Greenplum параллельно обмениваться данными со сторонними системами за счет самостоятельно написанных коннекторов. Напомним, PXF появился в рассматриваемой MPP-СУБД еще в 2017 году в версии 5. Этот фреймворк представляет собой отдельный процесс на сервере, который общается с сегментами Greenplum через REST API с одной стороны, а с другой использует сторонние Java-клиенты и библиотеки. Таким образом можно организовать обмен данными между Apache HDFS, Hbase и Hive с внешними СУБД через JDBC. Это позволяет строить на базе Greenplum гибкие и производительные платформы обработки больших данных по типу Лямбда-архитектуры: хранить самую свежую информацию, например, в Oracle, а архивные — в Hadoop. При этом пользователь будет видеть все данные в одной таблице за счет механизма партиционирования с подключением внешних таблиц [3]. Подробнее о том, как работает PXF в Greenplum, читайте в нашей новой статье.
Сперва X5 Retail Group строил конфигурацию кластера Arenadata DB на минимальной технической инфраструктуре вычислительных мощностей с возможностью дальнейшего масштабирования при росте нагрузки. Однако, на практике компания столкнулась со следующими проблемами [4]:
- неоптимальное распределение сегментов, что негативно сказалось на производительности кластера при его расширении. Это вообще характерно для MPP-систем из-за зеркальной топологии, которая обеспечивает отказоустойчивость. 6-я версия, вышедшая в конце 2019 года, позволяет побороть этот недостаток с помощью алгоритма consistent hashing, который разрешает перераспределять только часть блоков при добавлении новых узлов в кластер, ускоряя фоновое перераспределение таблиц [5].
- разграничение ресурсов кластера по нагрузке на дисковую подсистему. Это можно решить разделением хранилища данных на сегменты, например, один — только для Greenplum, другой — общий. Так было сделано в компании КРОК, которая предоставляет ADB по SaaS-модели [6].
Greenplum для инженеров данных и аналитиков данных
Код курса
GPDE
Ближайшая дата курса
7 июля, 2025
Продолжительность
24 ак.часов
Стоимость обучения
72 000 руб.
Тем не менее, даже при перечисленных сложностях Arenadata DB позволила X5 Retail Group построить аналитический слой детальных данных с описанной моделью, бизнес-владельцами доменов, словарем данных и привязкой к другим функциям Data Governance. В результате ритейлер получил надёжный сервис, доступный любому аналитику компании, чтобы принимать быстрые решения на основе Big Data [4]. Примечательно, что этот проект вошел в число победителей профессионального ИТ-конкурса GlobalCio «Проект года-2019» в номинации «Выбор экспертов», наряду с другими системами на базе ADB и Arenadata Hadoop, о чем мы писали здесь [7]. А общую удовлетворенность заказчика продуктами Аренадата подтверждает факт использования и другого решения компании – кластерной колоночной СУБД Arenadata Quick Marts [1], о которой мы расскажем в следующей статье.
Пройти образовательные курсы и стать профессионалом по ADH и ADB поможет наш лицензированный учебный центр повышения квалификации «Школа Больших Данных» — единственный авторизованный партнер компании Arenadata по сертификации специалистов и обучению в Москве:
- Администрирование кластера Arenadata Hadoop
- Основы Arenadata Hadoop
- Greenplum для инженеров данных
- Greenplum для инженеров данных
- Администрирование Greenplum / Arenadata DB
- Интеграция Hadoop и NoSQL
Источники
- https://arenadata.tech/about/cases/x5-retail-dwh.php
- https://habr.com/ru/company/croccloudteam/blog/485896/
- https://habr.com/ru/company/ibs/blog/343640/
- https://globalcio.ru/live/projects/3309/
- https://habr.com/ru/post/474008/
- https://habr.com/ru/company/croccloudteam/blog/485896/
- https://arenadata.tech/about/news/proekt-x5-retail-group-i-arenadata-stal-pobeditelem-konkursa-proekt-goda-2019/