Вчера мы рассказывали про применение Arenadata DB в крупной отечественной сети розничного ритейла. Сегодня рассмотрим еще один Big Data продукт от российской компании Аренадата, который Х5 Retail Group использует для быстрой аналитики больших данных. Читайте в нашей статье, что такое Arenadata QuickMarts и при чем здесь ClickHouse от Яндекса.
Что такое Arenadata QuickMarts и зачем она нужна
Начнем с определения: Arenadata QuickMarts (ADQM) – это кластерная колоночная СУБД для генерации аналитических отчетов по большим данным в режиме реального времени. Подчеркнем, что основным назначением систем интерактивной аналитики OLAP (Online Analytical Processing) является именно построение отчетов, а не как таковое хранение данных (data storage) и обработка транзакций в реальном времени (OLTP, Online Transaction Processing). Подробнее об отличиях OLAP и OLTP мы писали здесь. Именно столбцовые СУБД лучше подходят для OLAP-сценариев, когда данные в основном считываются, а не записываются, транзакции отсутствуют, а результат выполнения SQL-запроса существенно меньше исходных данных [1].
В отличие от MPP-СУБД, к которым относится Arenadata DB на базе Greenplum, ADQM оптимизирована для хранения информации в колоночных форматах на жестких дисках. Это, вместе с векторной обработкой данных на C++, позволяет до 2,5 раз повысить скорость формирования аналитических отчетов. Такие результаты особенно востребованы в следующих прикладных отраслях работы с Big Data [2]:
- веб-аналитика и контекстная реклама;
- real time мониторинг бизнес-метрик, например, анализ потребительского поведения на сайте;
- интерактивное взаимодействие с пользователями, например, онлайн-игры;
- контроль технических показателей, в т.ч. интернет вещей (Internet of Things).
Построение хранилища данных на базе Clickhouse
Код курса
CLICH
Ближайшая дата курса
9 декабря, 2024
Продолжительность
24 ак.часов
Стоимость обучения
72 000 руб.
Из вышеотмеченных кейсов в индустрии e-commerce наиболее востребована аналитика пользовательского поведения. Поэтому один из ведущих отечественных ритейлеров, торговая сеть Х5 Retail Group выбрала Arenadata QuickMarts для быстрого построения аналитических витрин в рамках своей Big Data платформы на базе Arenadata DB [3].
ADQM vs ClickHouse: 5 главных отличий
В основе Arenadata QuickMarts лежит ClickHouse – open-source СУБД от корпорации Яндекс, созданная отечественным ИТ-гигантом в 2009 году для собственных нужд веб-аналитики в рамках продукта «Яндекс.Метрика». В 2016 году Яндекс открыл исходный код ClickHouse [4] и на базе этого проекта в 2019 году отечественный разработчик Apache Hadoop, компания Arenadata, представила свою корпоративную СУБД для быстрой аналитики больших данных. Из наиболее крупных внедрений ClickHouse стоит отметить сервисы Яндекс (Метрика, Почта, Маркет, Танк), а также сторонние корпорации: Bloomberg, ВКонтакте, Rambler, Тинькофф банк, Avito.ru, СМИ2, ivi.ru, Mail.ru и множество других компаний, которым нужна быстрая аналитика больших объемов структурированных данных [5].
При общих принципах колоночного хранения информации, однотипных движках (баз данных, таблиц и интеграции с другими системами, например, с Apache Kafka или MySQL), а также строго реляционной модели данных, ADQM отличается от ClickHouse. В частности, компания-разработчик выделяет следующие особенности, важные для корпоративного использования [2]:
- гибкая авторизация пользователей и разграничение доступов благодаря прокси-серверу Arenadata Baje, который поддерживает прикладной протокол доступа к службе каталогов LDAP, а также помогает сбалансировать нагрузку и распределить доступ к базам данных;
- поддержка колоночного формата ORC;
- наличие инструментов администратора Graphite и Grafana для мониторинга производительности кластера;
- поддержка безопасного протокола взаимной аутентификации клиента и сервера Kerberos, который стал стандартом де-факто для экосистемы Apache Hadoop;
- бесшовная интеграция с другими продуктами компании Аренадата — Arenadata Hadoop, Arenadata DB, Arenadata Streaming.
Также производитель отмечает следующие отличительные преимущества ADQM [2]:
- простота развёртывания с помощью специализированного модульного инструмента Arenadata Cluster Manager;
- оптимизация распределения запросов;
- отечественное происхождение продукта и российская техподдержка с постоянной доработкой и выпуском новых версий.
Эти достоинства уже успела оценить Х5 Retail Group [3]. Ожидается, что в ближайшем будущем мы узнаем еще много интересных примеров внедрения Arenadata QuickMarts в ИТ-ландшафты крупных предприятий с целью оперативной аналитики большого объема структурированных данных, а также хранения широких витрин и таблиц фактов при организации современных КХД. В следующей статье мы продолжим разговор про СУБД для хранения и аналитики больших данных — расскажем про достоинства и недостатки MPP-систем на примере Greenplum и Arenadata DB. А про другой продукт компании Аренадата, In-Memory СУБД Arenadata Grid, читайте здесь.
Построение хранилища данных на базе Clickhouse
Код курса
CLICH
Ближайшая дата курса
9 декабря, 2024
Продолжительность
24 ак.часов
Стоимость обучения
72 000 руб.
Стать профессионалом по аналитике Big Data с помощью продуктов Arenadata вам поможет наш лицензированный учебный центр повышения квалификации Школа Больших Данных — единственный авторизованный партнер компании Аренадата по обучению и сертификации специалистов в Москве:
Источники