Управление НСИ в эпоху Big Data: какой MDM нужен современному бизнесу

MDM, Master Data Management, Big Data, Большие данные, обработка данных, ETL, бизнес-процессы, люди, Hadoop, Airflow

Управление данными не сводится к выделению роли дата стюарда и обеспечению Data Quality.  Сегодня мы расскажем, что такое мастер-данные, как искусственный интеллект помогает решать проблемы управления НСИ и почему эффективный Master Data Management (MDM) особенно важен в мире Big Data.

Что такое мастер-данные или зачем управлять НСИ

Начнем с определения: мастер-данные или основные данные – это важнейшая для бизнеса информацией о клиентах, продуктах, услугах, персонале, технологиях, материалах и прочей доменных объектах, которые редко изменяются и не являются транзакционными. В России и СНГ сложилась практика наименования таких данных термином «нормативно-справочная информация» (НСИ) [1]. В данной статье мы будем считать эти понятия синонимами.

Классический пример, показывающий необходимость управления НСИ – это кейс с разными названиями одного и того же объекта. Например, сокращенное и полное наименование контрагента в разных учетных системах. Такая путаница с записями может привести к некорректным или несвоевременным действиям. Например, повторные звонки клиенту с предложением товара или услуги, которыми он уже воспользовался, отсутствие скидок по программам лояльности и даже пропажа товарно-материальных ценностей из-за невозможности их однозначной идентификации в складских системах. В частности, в типовых маркетинговых кампаниях от 20 до 40% клиентских профилей – это дубликаты или фейковые записи. Однако, все они учитываются при распределении рекламного бюджета, что приводит к неэффективным инвестициям [2]. В эпоху Big Data, когда всяких данных, в т.ч. основных, становится все больше, проблема эффективного управления ими особенно актуальна.

Основные данные отличаются от транзакционных большей стабильностью, меньшими объемами и усложненной структурой. Например, разные сведения о клиенте в различных бизнес-подразделениях. При этом метаданные, которые описывают непосредственно НСИ, могут меняться достаточно часто. Поэтому требуется не только сбор, но и представление мастер-данных для последующего бизнес-анализа. Необходимо работать с текущими данными и анализировать историю их изменений [3]. Например, чтобы сохранить накопленные клиентом бонусы при смене наименования фирмы или изменении паспортных данных физлица.

Таким образом, главная цель управления мастер-данными – это гарантировать отсутствие пропущенных, повторяющихся, неполных и противоречивых записей об объектах бизнес-домена во всех корпоративных информационных системах. Для этого существует целая ИТ-дисциплина — Master Data Management, которая включает целый ряд структурированных подходов, процессов и инструментов по эффективному управлению НСИ.

Master Data Management, MDM
MDM-система как средство синхронизации разных представлений об одном объекте

Процессы и инструменты Master Data Management

Задачи MDM включают сбор, накопление, очистку, сопоставление, консолидацию, проверку качества и распространение корпоративных данных, а также обеспечение их последующей согласованности и контроль использования в различных операционных и аналитических приложениях [1]. Обычно эти операции реализуются с помощью специализированного программного обеспечения. Например, Informatica Data Quality, Microsoft Data Quality Services, Oracle Enterprise Data Quality, SAP Data Services, Talend Open Studio for Data Quality и другие коммерческие продукты, а также открытые сервисы. Аналитическое агентство Gartner составило рейтинг популярных MDM-решений, проранжировав их по удобству использования, функциональным возможностям и отзывам профессионалов [4].

С технической точки зрения внедрение MDM сводится к синхронизации и единому представлению справочных данных в разных информационных системах. Традиционно это делается с помощью следующих вариантов [5]:

  • централизованная НСИ, когда в качестве эталонного хранилища НСИ выбирается одна информационная система, а остальные считывают данные из нее. При простоте внедрения и поддержки актуальности данных, такая MDM-система не является отказоустойчивой и критически зависит от текущей доступности центрального звена.
  • аналитическая НСИ, когда мастер-данные создаются в отдельных бизнес-приложениях, а затем отправляются в общую систему, где из этих элементов формируется единая запись справочника. Достоинство этого метода – быстрота внедрения с минимальным вмешательством в клиентские системы. Недостаток – отсутствие согласованных мастер-данных в конечных бизнес-приложениях.
  • гармонизированная НСИ, которая сочетает преимущества двух вышеперечисленных подходов, но лишена их недостатков. За счет взаимной интеграции центрального звена с отдельными бизнес-приложениями, она позволяет заводить мастер-данные в локальных системах и сопоставлять с уже существующими записями, искать потенциальные дубли, разрешать конфликты одновременного изменения одних и тех же данных в разных источниках и синхронизировать локальные записи НСИ. Минусом этого варианта является сложность его реализации и необходимость модификации клиентских приложений.

Третий подход наиболее перспективен для MDM-операций с помощью инструментов Big Data. В частности, именно он позволяет использовать для этого средства искусственного интеллекта. Как это реализуется на практике, мы рассмотрим далее.

Big Data и Machine Learning для MDM

Исследовательское бюро Gartner не случайно включило расширенное управление данными в ТОП-10 трендов в области Data & Analytics. Алгоритмы машинного обучения и другие методы искусственного интеллекта могут выявить взаимосвязи между разными записями для обнаружения дублей и сопоставления различных представлений одного объекта. Так средства Machine Learning позволяют автоматизировать и сделать MDM-процессы самонастраивающимися [6]. А интерактивный полнотекстовый поиск корректных наименований справочных объектов можно реализовать с помощью Apache Solr или Elasticsearch. Например, именно так отечественный маркетплейс одежды и аксессуаров Lamoda сделал на своем сайте сервис подсказок, который помогает пользователям найти нужную вещь среди 4 миллионов товаров и 3 тысяч брендов. По сути, все эти объекты представляют собой мастер-данные или записи справочников НСИ. Подробнее об этом кейсе мы писали здесь.

Также имеет смысл интегрировать MDM-системы не только с бизнес-приложениями, но и с корпоративными хранилищами и озерами данных на базе Apache Hadoop для анализа исторической информации. В свою очередь, пакетный обмен данными между MDM-системой и локальными СУБД клиентских систем, может быть реализован с помощью ETL-процессов, например, Apache Airflow. Таким образом, технологии Big Data позволяют средствам Master Data Management отвечать потребностям современного бизнеса [7].

Big Data технологии для сервиса онлайн-подсказок
Компоненты сервиса подсказок на сайте Lamoda: Apache AirFlow, Solr, Docker, Prometheus, PostgreSQL, Grafana

В следующей статье мы продолжим разговор про Big Data Management и рассмотрим, что такое Data Lineage и Provenance. А как обеспечить эффективное управление НСИ с помощью больших данных и Machine Learning, вы узнаете на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:

Источники

  1. https://ru.wikipedia.org/wiki/Управление_основными_данными
  2. https://www.ibmbigdatahub.com/blog/what-marketing-campaigns-are-missing-mdm-express
  3. https://www.osp.ru/os/2007/05/4260254/
  4. https://www.gartner.com/reviews/market/master-data-management-solutions
  5. https://habr.com/ru/company/navicon/blog/260927
  6. https://www.gartner.com/smarterwithgartner/gartner-top-10-data-analytics-trends/
  7. https://www.cmswire.com/digital-experience/5-master-data-management-trends-to-watch/
Поиск по сайту