В продолжение вчерашней статьи о победителях российского ИТ-конкурса «Проект Года» от профессионального сообщества GlobalCIO в номинации «Аналитика и Big Data», сегодня мы рассмотрим корпоративную платформу управления данными ПАО «Газпром нефть», реализованную на базе продуктов отечественного разработчика Big Data решений: Arenadata Hadoop и MPP-СУБД Arenadata DB (Greenplum).
Зачем ПАО «Газпром нефть» нужна корпоративная платформа управления данными
Напомним, наряду с проектом «Сервис интеграции и анализа данных», о котором мы рассказывали вчера, этот проект ПАО «Газпром нефть» также занял 1-ое место конкурса GlobalCIO-2020 в номинации «Аналитика и Big Data» [1]. Как и в случае с сервисом интеграции и анализа данных, разработку корпоративной платформы управления данными (Reporting HelpDesk, RHD) выполняло ООО «Газпромнефть — Цифровые решения» совместно с интегратором ЗАО «Крок инкорпорейтед». Работа над проектом стартовала в 2018 году и была успешно завершена в декабре 2020 года.
Чтобы повысить эффективность процессов управления данными (Data Governance и Data Management), RHD обеспечивает следующие возможности [2]:
- прозрачность данных за счет единого источника информации и правил управления ею, включая быстрый поиск по структурированным и слабоструктурированным данным;
- единое понимание терминологии, взаимосвязей между бизнес-терминами/показателями и источниками данных, методологии расчетов/трансформаций, а также происхождения данных (data lineage);
- быстрый доступ полномочных пользователей к нужным данным и сервисам через единую точку доступа к глоссарию, каталогу данных, аналитической отчетности, порталу самообслуживания с помощью RBAC-модели;
- доверие к информации за счет средств контроля качества данных, а также инструментов управления инцидентами и проблемами;
- цифровизация бизнес-процессов с помощью внедрения соответствующих моделей данных;
- повышение аналитической ценности данных за счет инструментов самообслуживаемой бизнес-аналитики (self-service BI).
Как все это реализуется на практике, мы подробнее рассмотрим далее.
Российский open-source продукты с поддержкой вендора + закрытые Big Data решения: особенности технической реализации RHD на Arenadata и Informatica
Продукты платформы RHD размещены в частном облаке (Private Cloud), поскольку обрабатываемые данные являются «чувствительными» и, согласно ограничениям службы безопасности, не могут быть размещены за пределами корпоративной сети. За хранение и аналитическую обработку, а также управление СУБД отвечают Arenadata DB, Arenadata Hadoop, PostgresPro, MS SQL Server.
На аналитическую распределенную MPP-СУБД Arenadata DB ложится основная нагрузка по преобразованиям структурированных данных и представлению конечных пользовательских витрин для BI-системы Qlick, выполнения ad-hoc аналитики и организации «магазина данных» (Data Market) на корпоративном портале. А потоковые и слабоструктурированные данные хранятся и обрабатываются в Arenadata Hadoop.
Интеграция данным между различными уровнями и сервисами, в т.ч. ETL-процессы, выполняется с помощью Informatica PowerCenter, а за качество данных отвечает Informatica Data Quality. Управление метаданными обеспечивается через Informatica Enterprise Data Catalog, а поддержка бизнес-глоссария и каталогизация данных ведутся в системе Alteryx Connect.
Примечательно, что платформа RHD ориентирована на всех сотрудников ПАО «Газпром нефть», которые являются пользователями корпоративных информационных систем в каждом филиале по России и в других странах [3]. Дополнительными преимуществами решения является использование отечественных технологий хранения и аналитики больших данных от компании Arenadata, что снижает санкционные и валютные риски. А зарубежные проприетарные решения Informatica и Qlick в перспективе планируется заменить подходящими российскими продуктами. Развитие проекта планируется продолжить в 2021 году в рамках корпоративной стратегии цифровизации предприятия, включая активное внедрение цифровых двойников в производство.
Узнайте о возможностях эффективного хранения и оперативной аналитики больших данных с продуктами Arenadata на практических курсах в нашем лицензированном центре Школа Больших Данных, который является единственным авторизованным партнером вендора по обучению и сертификации специалистов:
- Основы Arenadata Hadoop
- Эксплуатация Arenadata DB
- Эксплуатация Arenadata QuickMarts
- Администрирование кластера Arenadata Hadoop
- Администрирование Arenadata Streaming Kafka
- Arenadata DB для разработчиков
Источники
- https://arenadata.tech/about/news/proekt-goda-2020-globalcio/
- https://globalcio.ru/live/projects/10912/
- https://globalcio.ru/upload/iblock/1db/1db7627c176618bd567da3c3f73256ae.pdf