Сегодня мы поговорим про продукты компании Arenadata – отечественного разработчика дистрибутива Apache Hadoop (ADH), массивно-параллельной СУБД для хранения и анализа больших данных Arenadata DB (ADB) и других Big Data платформ. Читайте в нашей статье, где внедрены эти решения и какую пользу они уже успели принести бизнесу.
Облака и банк: 3 примера внедрения Arenadata DB
Компания Mail.ru Group, один из ведущих облачных провайдеров в России, решила объединить преимущества своей инфраструктуры с достоинствами Arenadata DB – распределенной массивно-параллельной СУБД для анализа и хранения больших данных. С 29 апреля 2020 года Mail.ru Cloud Solutions запустила на своей платформе сервис по развертыванию и использованию ADB [1]. Аналогичную услугу с февраля 2020 года предлагает другой крупный SaaS-провайдер и системный интегратор – компания Крок [2].
Из наиболее известных внедрений Arenadata DB стоит отметить опыт розничного онлайн-банка Touch Bank, который с 2018 года вошел в состав OTP Group. Изначально с 2014 года банк использовал реляционную СУБД Pivotal Greenplum для своих аналитических задач. Однако, в 2017 году после ухода компании Pivotal с российского рынка и открытия исходного кода Greenplum под лицензией Apache 2.0 перед банком встал вопрос техподдержки СУБД и её миграции на следующие версии. Поэтому было решено перейти на ADB. В результате проекта Touch-банк значительно снизил расходы на использование СУБД при сохранении высокого уровня надёжности и доступности сервиса [3].
Умное озеро данных на Arenadata Hadoop в ПАО «Газпромнефть»
Мы уже писали о тренде на интеграцию корпоративных хранилищ данных (КХД) с нереляционными озерами данных (Data Lake), где сохраняется множество разнообразной информации. Аналитическое агентство Gartner позиционирует такое объединение как современный архитектурный шаблон для комплексных аналитических платформ. Эта концепция предполагает совместную работу КХД и Data Lake для обеспечения операций управления данными (Data Governance), чтобы каждый сотрудник предприятия мог оперативно получить доступ к согласованной и актуальной для него информации через единый пользовательский интерфейс. Такая задача особенно востребована в крупных компаниях с большим объемом данных и высоким уровнем управленческой зрелости (4-5 по модели CMMI).
Аналитика больших данных для руководителей
Код курса
BDAM
Ближайшая дата курса
13 января, 2025
Продолжительность
24 ак.часов
Стоимость обучения
72 000 руб.
Заказчиком проекта выступила дирекция региональных продаж ПАО «Газпром нефть», которая управляет сетью АЗС в России, СНГ и странах Восточной Европы, включая магазины, кафе и топливные терминалы, а также производит биржевые и оптовые продажи, доставку и контроль качества нефтепродуктов. Была поставлена цель внедрения комплексной системы анализа больших данных и управления ими для решения следующих задач [4]:
- снижение затрат на интеграцию данных;
- централизация инфраструктуры и сервисов;
- демократизация данных через общий пользовательский портал, в т.ч. доступ к единому бизнес-словарю всех аналитических витрин и приложений, актуальным картам происхождения, правилам и метрикам качества данных;
- повышение доступности и качества данных, включая управление НСИ;
- быстрое развертывание сред и предоставление датасетов для Data Science;
- повышение эффективности работы аналитиков за счет средств контроля происхождения данных (data lineage и provenance), а также инструментов профилирования и автоматической разметки всех данных в едином каталоге.
Комплексная платформа для решения всех этих и множества сопутствующих задач была развернута на базе следующих компонентов [4]:
- подсистемы Data Governance на платформе Informatica (Axon, Enterprise Data Catalog, Data Quality, Big Data Management, PowerCenter) для управления качеством данных, организации каталога, бизнес-глоссария и пользовательского портала;
- Data Lake на основеArenadata Hadoop;
- аналитическое хранилище данных (Microsoft SQL Server 2017);
- BI-система Qlik;
- инструменты Data Science для анализа данных и ML-моделирования (Apache Spark, RStudio, Scikit-learn и другие библиотеки машинного обучения для Python и прочих языков программирования).
Администрирование кластера Hadoop
Код курса
HADM
Ближайшая дата курса
28 октября, 2024
Продолжительность
40 ак.часов
Стоимость обучения
120 000 руб.
Arenadata Hadoop выполняла роль хранилища «сырых данных», куда попадала первичная информация из сторонних источников, а также данные, обработанные компонентами платформы Informatica Big Data Management, Enterprise Data Catalog, Data Quality. Наличие в дистрибутиве ADH средств обеспечения cybersecurity (Apache Ranger, Knox, Atlas) позволило обеспечить безопасность озера данных, а Airlow – реализацию потоковых ETL-процессов. Также Arenadata Hadoop включает и другие инструменты, необходимые для эффективного использования современного Data Lake: Apache Solr для полнотекстового поиска, Hive c HBase и Phoenix для быстрой SQL-аналитики больших данных, Spark для распределенных вычислений в режиме near real-time и другие полезные инструменты [5].
В результате проекта, который выполнялся с января 2018 по октябрь 2019 года, «умное» озеро данных развернуто в петербургском ЦОДе «Газпром нефти». Доступ к решению имеют аналитики бизнес-подразделений Дирекции региональных продаж, которые расположены в 29 регионах России и 4-х странах СНГ. Также эта Big Data система поставляет исходные данные для различных корпоративных систем и итоговые показатели для внешних партнеров [4].
Примечательно, что это Big Data решение ПАО «Газпромнефть» вошло в число победителей премии «Проекта Года 2019», наряду с 2-мя другими крупными внедрениями Arenadata Hadoop [6], о которых мы расскажем в следующей статье.
Навыки администрирования и эксплуатации Apache Hadoop вы получите на практических курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:
- Основы Hadoop
- Администрирование кластера Hadoop
- Безопасность озера данных Hadoop
- Hadoop для инженеров данных
Источники
- https://arenadata.tech/about/news/mail-ru-cloud-solutions-zapustila-v-oblake-analiticheskuyu-bazu-dannykh-arenadata-db-na-osnove-greenplum/
- https://www.comnews.ru/digital-economy/content/204551/2020-02-12/2020-w07/krok-oblachnye-servisy-zapustil-uslugu-dlya-analiza-bolshikh-dannykh
- http://www.tadviser.ru/index.php/Проект:Touch_Bank_%28ADB_-_Arenadata_BD%29
- https://globalcio.ru/live/projects/3040/
- https://arenadata.tech/products/hadoop/
- https://arenadata.tech/about/news/proekt-x5-retail-group-i-arenadata-stal-pobeditelem-konkursa-proekt-goda-2019/