Очень быстрая аналитика больших данных: Arenadata QuickMarts и яндексовский ClickHouse

Arenadata QuickMarts, ClickHouse, Аренадата, Big Data, Большие данные, обработка данных, архитектура, Hadoop, SQL, цифровизация, цифровая трансформация, DWH, ритейл

Вчера мы рассказывали про применение Arenadata DB в крупной отечественной сети розничного ритейла. Сегодня рассмотрим еще один Big Data продукт от российской компании Аренадата, который Х5 Retail Group использует для быстрой аналитики больших данных. Читайте в нашей статье, что такое Arenadata QuickMarts и при чем здесь ClickHouse от Яндекса.

Что такое Arenadata QuickMarts и зачем она нужна

Начнем с определения: Arenadata QuickMarts (ADQM) – это кластерная колоночная СУБД для генерации аналитических отчетов по большим данным в режиме реального времени. Подчеркнем, что основным назначением систем интерактивной аналитики OLAP (Online Analytical Processing) является именно построение отчетов, а не как таковое хранение данных (data storage) и обработка транзакций в реальном времени (OLTP, Online Transaction Processing). Подробнее об отличиях OLAP и OLTP мы писали здесь. Именно столбцовые СУБД лучше подходят для OLAP-сценариев, когда данные в основном считываются, а не записываются, транзакции отсутствуют, а результат выполнения SQL-запроса существенно меньше исходных данных [1].

В отличие от MPP-СУБД, к которым относится Arenadata DB на базе Greenplum, ADQM оптимизирована для хранения информации в колоночных форматах на жестких дисках. Это, вместе с векторной обработкой данных на C++, позволяет до 2,5 раз повысить скорость формирования аналитических отчетов. Такие результаты особенно востребованы в следующих прикладных отраслях работы с Big Data [2]:

  • веб-аналитика и контекстная реклама;
  • real time мониторинг бизнес-метрик, например, анализ потребительского поведения на сайте;
  • интерактивное взаимодействие с пользователями, например, онлайн-игры;
  • контроль технических показателей, в т.ч. интернет вещей (Internet of Things).

Построение хранилища данных на базе Clickhouse

Код курса
CLICH
Ближайшая дата курса
17 февраля, 2025
Продолжительность
24 ак.часов
Стоимость обучения
72 000 руб.

Из вышеотмеченных кейсов в индустрии e-commerce наиболее востребована аналитика пользовательского поведения. Поэтому один из ведущих отечественных ритейлеров, торговая сеть Х5 Retail Group выбрала Arenadata QuickMarts для быстрого построения аналитических витрин в рамках своей Big Data платформы на базе Arenadata DB [3].

Аренадата, Arenadata QuickMarts, аналитика больших данных
Источники и приемники данных для Arenadata QuickMarts

ADQM vs ClickHouse: 5 главных отличий

В основе Arenadata QuickMarts лежит ClickHouse – open-source СУБД от корпорации Яндекс, созданная отечественным ИТ-гигантом в 2009 году для собственных нужд веб-аналитики в рамках продукта «Яндекс.Метрика». В 2016 году Яндекс открыл исходный код ClickHouse [4] и на базе этого проекта в 2019 году отечественный разработчик Apache Hadoop, компания Arenadata, представила свою корпоративную СУБД для быстрой аналитики больших данных. Из наиболее крупных внедрений ClickHouse стоит отметить сервисы Яндекс (Метрика, Почта, Маркет, Танк), а также сторонние корпорации: Bloomberg, ВКонтакте, Rambler, Тинькофф банк, Avito.ru, СМИ2, ivi.ru, Mail.ru и множество других компаний, которым нужна быстрая аналитика больших объемов структурированных данных [5].

При общих принципах колоночного хранения информации, однотипных движках (баз данных, таблиц и интеграции с другими системами, например, с Apache Kafka или MySQL), а также строго реляционной модели данных, ADQM отличается от ClickHouse. В частности, компания-разработчик выделяет следующие особенности, важные для корпоративного использования [2]:

  • гибкая авторизация пользователей и разграничение доступов благодаря прокси-серверу Arenadata Baje, который поддерживает прикладной протокол доступа к службе каталогов LDAP, а также помогает сбалансировать нагрузку и распределить доступ к базам данных;
  • поддержка колоночного формата ORC;
  • наличие инструментов администратора Graphite и Grafana для мониторинга производительности кластера;
  • поддержка безопасного протокола взаимной аутентификации клиента и сервера Kerberos, который стал стандартом де-факто для экосистемы Apache Hadoop;
  • бесшовная интеграция с другими продуктами компании Аренадата — Arenadata Hadoop, Arenadata DB, Arenadata Streaming.

Также производитель отмечает следующие отличительные преимущества ADQM [2]:

  • простота развёртывания с помощью специализированного модульного инструмента Arenadata Cluster Manager;
  • оптимизация распределения запросов;
  • отечественное происхождение продукта и российская техподдержка с постоянной доработкой и выпуском новых версий.

Эти достоинства уже успела оценить Х5 Retail Group [3]. Ожидается, что в ближайшем будущем мы узнаем еще много интересных примеров внедрения Arenadata QuickMarts в ИТ-ландшафты крупных предприятий с целью оперативной аналитики большого объема структурированных данных, а также хранения широких витрин и таблиц фактов при организации современных КХД. В следующей статье мы продолжим разговор про СУБД для хранения и аналитики больших данных — расскажем про достоинства и недостатки MPP-систем на примере Greenplum и Arenadata DB. А про другой продукт компании Аренадата, In-Memory СУБД Arenadata Grid, читайте здесь.

Построение хранилища данных на базе Clickhouse

Код курса
CLICH
Ближайшая дата курса
17 февраля, 2025
Продолжительность
24 ак.часов
Стоимость обучения
72 000 руб.

Стать профессионалом по аналитике Big Data с помощью продуктов Arenadata вам поможет наш лицензированный учебный центр повышения квалификации Школа Больших Данныхединственный авторизованный партнер компании Аренадата по обучению и сертификации специалистов в Москве:

Источники

  1. https://clickhouse.tech/docs/ru/single/
  2. https://arenadata.tech/products/adqm/
  3. https://globalcio.ru/live/projects/3293/
  4. https://habr.com/ru/post/322724/
  5. https://ru.wikipedia.org/wiki/ClickHouse
Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.
Поиск по сайту