Проект года-2021: фабрика данных на Arenadata Hadoop в АО «Народный банк Казахстана»

обучение Arenadata, курсы Arenadata, обучение большим данным, импортозамещение Big Data Arenadata, Arenadata Hadoop примеры курсы обучение, российские решения для больших данных, Школа Больших Данных Учебный Центр Коммерсант

Мы уже рассказывали о победителях российского ИТ-конкурса «Проект Года 2020» от профессионального сообщества GlobalCIO в номинации «Аналитика и Big Data», где «Газпром нефть» и банк ВТБ делятся опытом применения российских продуктов Arenadata. Сегодня рассмотрим кейс призера 2021 года — проект «Фабрика данных» в АО «Народный банк Казахстана», в результате которого было реализовано гетерогенное хранилище на базе корпоративного дистрибутива Arenadata Hadoop.

Постановка задачи: зачем АО «Народный банк Казахстана» нужна фабрика данных

Проект Фабрика данных в АО «Народный банк Казахстана» («Халык Банк») выполнялся 11 месяцев, с января по ноябрь 2021 года, заняв 184560 рабочих человеко-часов. Чтобы увеличить комиссионный доход Банка за счет персонализации предложений и стимулирования транзакционной активности, было решено создать единое информационное пространство и аналитическую среду с применением инструментов ИИ и идей Data Governance. Предполагалось, что масштабная корпоративная фабрика данных позволит улучшить клиентский опыт с помощью машинного обучения в системах антифрода, AML и цифровизации процессов контакт-центра.

Фабрика данных агрегирует информацию из нескольких десятков внутренних и внешних источников, чтобы в реальном времени принимать решения о взаимодействии с клиентами. Также задействована пакетная обработка: ежедневная выгрузка данных их предиктивных ML-моделей для выработки наиболее эффективных стратегий коммуникации с каждым клиентом. Также результаты прогнозирования влияют на формирование предложений для перекрестных и дополнительных продаж и мероприятий для удержания клиентов. Кроме того, ML-прогнозы формируют клиентский путь в мобильных банковских приложениях, генерируя персональные всплывающие окна, push-уведомления и бонусы в зависимости от предшествующего поведения и пользовательских предпочтений. Как это все было реализовано, разберем далее.

Техническая реализации с Arenadata и другими продуктами хранения и аналитики Big Data

Фабрика данных основана на гетерогенном хранилище данных в виде Arenadata Hadoop и СУБД Oracle. Для DDS-слоя гетерогенного хранилища данных применялся гибридный подход на основе Data Vault. Сам DDS-слой пока размещен на СУБД Oracle, но в перспективе планируется переход на аналитическую MPP-СУБД с открытым исходным кодом Greenplum, которая также лежит в основе Arenadata DB.

DWH интегрировано с 14 внутренними источниками данных и 20 внешними с помощью решений Informatica Data Engineering Integration, Power Center и Apache Kafka. Проверка качества данных осуществляется с использованием Informatica Data Quality. За мониторинг происхождения данных отвечает Informatica Enterprise Data Catalog, а используемые в хранилище расчетные показатели описаны в Informatica Axon.

Для хранилища на базе Arenadata Hadoop и СУБД Oracle реализована возможность мониторинга измененных данных обеспечивать в режиме реального времени, чтобы отслеживать загрузку данных о всех карточных транзакциях и начислениях бонусов в системе лояльности. Для этого используются Clickhouse, Scylla DB и Elasticsearch. Системы поддержки принятия решений на базе IBM Streams развернуты в частном облаке с использованием Kubernetes, NOMAD, HashiCorp, Vault и Open Stack.

Для управления контрактной политикой и коммуникациями с клиентами применяются решения Unica, Journey и Optimize от HCL. Для доступа бизнес-пользователей к данным из хранилища используется BI-система Qlick. Также выполняется загрузка данных в реальном времени из BPMS Camunda, для которой в качестве CDC-инструмента используется Debezium.

Результаты внедрения

Этот масштабный проект оказал положительное влияние не только на стратегические инициативы всего Банка, но и позитивно отразился на работе рядовых сотрудников, позволив им:

  • самостоятельно получать необходимые бизнес-показатели в рамках конечных BI-систем;
  • понимать потребности и интересы клиентов, взаимодействие с которым идет через онлайн-каналы;
  • видеть, какие данные есть в каких системах, как они загружаются в хранилище и каким образом с ними работать, чтобы обеспечивать высокий уровень Data Quality;
  • повысить эффективность операционной деятельности с помощью точных ML-прогнозов и предложений по оптимизации бизнес-процессов. Например, проверять не все события на мошенничество, а только те, вероятность неблагонадежных операций в которых по прогнозу весьма высока.

Узнайте, как использовать мощь отечественных продуктов Arenadata для построения надежных систем аналитики больших данных, на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:

Источники

  1. https://arenadata.tech/about/news/pobeda-na-konkurse-globalcio/
  2. https://globalcio.ru/projects/19418/
Поиск по сайту