Мы уже рассказывали о победителях российского ИТ-конкурса «Проект Года 2020» от профессионального сообщества GlobalCIO в номинации «Аналитика и Big Data», где «Газпром нефть» и банк ВТБ делятся опытом применения российских продуктов Arenadata. Сегодня рассмотрим кейс призера 2021 года — проект «Фабрика данных» в АО «Народный банк Казахстана», в результате которого было реализовано гетерогенное хранилище на базе корпоративного дистрибутива Arenadata Hadoop.
Постановка задачи: зачем АО «Народный банк Казахстана» нужна фабрика данных
Проект Фабрика данных в АО «Народный банк Казахстана» («Халык Банк») выполнялся 11 месяцев, с января по ноябрь 2021 года, заняв 184560 рабочих человеко-часов. Чтобы увеличить комиссионный доход Банка за счет персонализации предложений и стимулирования транзакционной активности, было решено создать единое информационное пространство и аналитическую среду с применением инструментов ИИ и идей Data Governance. Предполагалось, что масштабная корпоративная фабрика данных позволит улучшить клиентский опыт с помощью машинного обучения в системах антифрода, AML и цифровизации процессов контакт-центра.
Фабрика данных агрегирует информацию из нескольких десятков внутренних и внешних источников, чтобы в реальном времени принимать решения о взаимодействии с клиентами. Также задействована пакетная обработка: ежедневная выгрузка данных их предиктивных ML-моделей для выработки наиболее эффективных стратегий коммуникации с каждым клиентом. Также результаты прогнозирования влияют на формирование предложений для перекрестных и дополнительных продаж и мероприятий для удержания клиентов. Кроме того, ML-прогнозы формируют клиентский путь в мобильных банковских приложениях, генерируя персональные всплывающие окна, push-уведомления и бонусы в зависимости от предшествующего поведения и пользовательских предпочтений. Как это все было реализовано, разберем далее.
Техническая реализации с Arenadata и другими продуктами хранения и аналитики Big Data
Фабрика данных основана на гетерогенном хранилище данных в виде Arenadata Hadoop и СУБД Oracle. Для DDS-слоя гетерогенного хранилища данных применялся гибридный подход на основе Data Vault. Сам DDS-слой пока размещен на СУБД Oracle, но в перспективе планируется переход на аналитическую MPP-СУБД с открытым исходным кодом Greenplum, которая также лежит в основе Arenadata DB.
DWH интегрировано с 14 внутренними источниками данных и 20 внешними с помощью решений Informatica Data Engineering Integration, Power Center и Apache Kafka. Проверка качества данных осуществляется с использованием Informatica Data Quality. За мониторинг происхождения данных отвечает Informatica Enterprise Data Catalog, а используемые в хранилище расчетные показатели описаны в Informatica Axon.
Для хранилища на базе Arenadata Hadoop и СУБД Oracle реализована возможность мониторинга измененных данных обеспечивать в режиме реального времени, чтобы отслеживать загрузку данных о всех карточных транзакциях и начислениях бонусов в системе лояльности. Для этого используются Clickhouse, Scylla DB и Elasticsearch. Системы поддержки принятия решений на базе IBM Streams развернуты в частном облаке с использованием Kubernetes, NOMAD, HashiCorp, Vault и Open Stack.
Для управления контрактной политикой и коммуникациями с клиентами применяются решения Unica, Journey и Optimize от HCL. Для доступа бизнес-пользователей к данным из хранилища используется BI-система Qlick. Также выполняется загрузка данных в реальном времени из BPMS Camunda, для которой в качестве CDC-инструмента используется Debezium.
Результаты внедрения
Этот масштабный проект оказал положительное влияние не только на стратегические инициативы всего Банка, но и позитивно отразился на работе рядовых сотрудников, позволив им:
- самостоятельно получать необходимые бизнес-показатели в рамках конечных BI-систем;
- понимать потребности и интересы клиентов, взаимодействие с которым идет через онлайн-каналы;
- видеть, какие данные есть в каких системах, как они загружаются в хранилище и каким образом с ними работать, чтобы обеспечивать высокий уровень Data Quality;
- повысить эффективность операционной деятельности с помощью точных ML-прогнозов и предложений по оптимизации бизнес-процессов. Например, проверять не все события на мошенничество, а только те, вероятность неблагонадежных операций в которых по прогнозу весьма высока.
Узнайте, как использовать мощь отечественных продуктов Arenadata для построения надежных систем аналитики больших данных, на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:
- Администрирование кластера Hadoop
- Основы Hadoop
- Greenplum для инженеров данных
- Администрирование Greenplum / Arenadata DB
- Администрирование кластера Kafka
Источники