Мы уже рассказывали о проектах-победителях российского ИТ-конкурса «Проект Года» профессионального сообщества GlobalCIO, представивших корпоративные решения на базе продуктов Arenadata. В 2020 году клиенты Arenadata также вошли в тройку лидеров. Читайте далее, как «Газпром нефть» и ВТБ улучшили свои процессы управления данными с помощью отечественных технологий хранения и аналитики Big Data.
Что такое «Проект года»: краткий ликбез о конкурсе GlobalCIO
Ежегодный конкурс «Проект года» от GlobalCIO – это не просто представление реализованных корпоративных ИТ-решений, а обмен опытом и экспертными мнениями об автоматизации и цифровизации бизнеса между топ-менеджерами государственных организаций и коммерческих предприятий. Открытый характер мероприятия позволяет консолидировать знаний о лучших практиках ИТ-области и цифровой трансформации в России [1].
В 2020 году сразу 2 проекта ПАО «Газпром нефть» заняли 1-ое место в номинации «Аналитика и Big Data»: «Внедрение корпоративной платформы управления данными» и «Сервис интеграции и анализа данных». А в номинации «Отечественная разработка» победил проект банка ВТБ — «Миграция системы подготовки отчётности с Oracle SuperCluster на Arenadata DB» [2]. В чем уникальность этих проектов и какова роль продуктов Arenadata в их реализации, мы рассмотрим далее.
Опыт банка ВТБ: реальное импортозамещение или как уйти с Oracle на Arenadata DB
Тренд на импортозамещение и переход на россйиские программные продукты характерен не только для бюджетных государственных организаций. Перед банком ВТБ также стояла задача вывода продуктов компании Oracle из корпоративного ИТ-ландшафта и поиска адекватной альтернативы, чтобы эффективно и надежно хранить данные финансовой корпорации, а также оперативно анализировать, формируя нужные отчеты. Дополнительными ограничениями являются строгие требования регулятора о времени подготовки отчетности, а также глобальные санкционные и валютные риски. С технической точки зрения важно было обеспечить экономное использование емкости жестких дисков в перспективе увеличения объема данных.
В качестве хранилища данных была выбрана аналитическая распределенная СУБД MPP-СУБД Arenadata DB (ADB) с открытым исходным кодом на базе Greenplum от российского разработчика. Роль инфраструктурной платформы выполняет отечественная программно-аппаратная платформа СКАЛА-СР на серверах VESNIN 1-го поколения, интегрированная с решениями Arenadata. Этот высокопроизводительный комплекс с большим объемом оперативной памяти и возможностью установки супер-быстрых дисков NVMe позволяет оперативно анализировать огромные объемы данных, извлекая из них полезные бизнес-инсайты. Система подготовки отчетности реализована на платформе Flextera BI от российской компании «Диасофт». В целом ИТ-решение работает как единый комплекс с интегрированными между собой продуктами [3]:
- горизонтально масштабируемая машина баз данных СКАЛА-СР/АДБ и аналитическая MPP-СУБД Arenadata DB обеспечивают быструю обработку петабайтов структурированных данных;
- программно-аппаратные комплексы СКАЛА-СР/АДС и масштабируемая отказоустойчивая система Arenadata Streaming на базе Apache Kafka и NiFi, о которой мы рассказывали здесь, осуществляют потоковую обработку данных в реальном времени;
- комплексы СКАЛА-СР/АДХ с установленным корпоративным дистрибутивом Arenadata Hadoop используются для хранения и обработки слабоструктурированных и неструктурированных данных.
Планируется, что комплексная реализация проекта на федеральном уровне, т.е. во всех филиалах банка ВТБ, будет полностью завершена к 2022 году. Однако, уже на текущем этапе представленное ИТ-решение принесло банку следующие полезные результаты [3]:
- повышение качества и доступности данных в 2 раза;
- максимальная скорость предоставления критически важных для бизнеса данных;
- сокращение TCO (Total Cost Ownership, общая стоимость владения) на 170 млн руб. за 7 лет;
- исключение санкционных и валютных рисков.
Сервис интеграции и анализа данных «Газпром нефть»
Технологический сервис интеграции и анализа структурированных и неструктурированных данных из различных источников необходим ПАО «Газпром нефть» для следующих целей [4]:
- сокращение времени вывода продукта на рынок (TTM, Time To Market) за счет акселерации инициатив по анализу данных, быстрого выделения ресурсов управления данными, повторного использования данных и доступных инструментов ETL;
- снижение стоимости инициатив за счет повторного использования данных, эффективной эксплуатации инфраструктуры и программного обеспечения, а также централизации управления работами по принципу «единого окна».
Для достижения этих целей в 2018 году ООО «Газпромнефть — Цифровые решения» начала разработку платформы массового сбора, хранения и трансформации разнородных данных с возможностью формирования кросс-функциональной отчетности на уровне всех подразделений ПАО «Газпром нефть» и его дочерних предприятий. Примечательно, что в реализации использовались не только отечественные open-source продукты с коммерческой поддержкой вендора, такие как компоненты платформы Arenadata (DB, Hadoop, Streaming) и Postgres Pro, но и проприетарные решения, в частности, Informatica DEI/PC. Однако, при необходимости Arenadata Streaming на базе Apache Kafka и NiFi позволит уйти от импортного ETL-инструмента Informatica DEI/PC. Хотя в этом случае потребуется реализация дополнительных функций, повышающих удобство работы с данными и общий уровень автоматизации процессов их маршрутизации, таких как динамические сопоставления (маппинги) и профилирование данных, что по умолчанию есть в дорогой импортной Informatica, но отсутствует в отечественной Arenadata Streaming.
Еще из интересных особенностей реализации проекта стоит отметить поддержку межкомпонентной аутентификацией с применением протокола Kerberos в разнородной многокомпонентной платформе, а также пакетную и потоковую near real-time загрузку разнородных данных из 20+ внутренних и внешних систем-источников: файлы, очереди сообщений, промышленные РСУБД, данные в отраслевых стандартах (ZGY, WITSML) и пр.
В настоящее время на базе представленного сервиса развернуты инструменты поддержки процессов управления данными (Data Governance) для бизнес-глоссария, моделирования, контроля качества и управления метаданными. Экономический эффект от этого инфраструктурного проекта связан с использующих его бизнес-решениями за счет сокращения времени доступа к нужным данным и повторного использования данных [4].
О другом проекте ПАО «Газпром нефть», который также занял 1-ое место конкурса GlobalCIO-2020 в номинации «Аналитика и Big Data», и особенностях применения продуктов Arenadata, мы расскажем завтра. А о том, как Народный Банка Казахстана построил гетерогенное хранилище на Arenadata Hadoop, победив с проектом «Фабрика данных» в ИТ-конкурсе «Проект Года 2021», читайте здесь. Напоминаем, что освоить продукты компании Arenadata вы сможете на практических курсах в нашем лицензированном центре Школа Больших Данных, который является единственным авторизованным партнером вендора по обучению и сертификации специалистов:
- Основы Arenadata Hadoop
- Эксплуатация Arenadata DB
- Эксплуатация Arenadata QuickMarts
- Администрирование кластера Arenadata Hadoop
- Администрирование Arenadata Streaming Kafka
- Arenadata DB для разработчиков
Источники