Управление данными не сводится к выделению роли дата стюарда и обеспечению Data Quality. Сегодня мы расскажем, что такое мастер-данные, как искусственный интеллект помогает решать проблемы управления НСИ и почему эффективный Master Data Management (MDM) особенно важен в мире Big Data.
Что такое мастер-данные или зачем управлять НСИ
Начнем с определения: мастер-данные или основные данные – это важнейшая для бизнеса информацией о клиентах, продуктах, услугах, персонале, технологиях, материалах и прочей доменных объектах, которые редко изменяются и не являются транзакционными. В России и СНГ сложилась практика наименования таких данных термином «нормативно-справочная информация» (НСИ) [1]. В данной статье мы будем считать эти понятия синонимами.
Классический пример, показывающий необходимость управления НСИ – это кейс с разными названиями одного и того же объекта. Например, сокращенное и полное наименование контрагента в разных учетных системах. Такая путаница с записями может привести к некорректным или несвоевременным действиям. Например, повторные звонки клиенту с предложением товара или услуги, которыми он уже воспользовался, отсутствие скидок по программам лояльности и даже пропажа товарно-материальных ценностей из-за невозможности их однозначной идентификации в складских системах. В частности, в типовых маркетинговых кампаниях от 20 до 40% клиентских профилей – это дубликаты или фейковые записи. Однако, все они учитываются при распределении рекламного бюджета, что приводит к неэффективным инвестициям [2]. В эпоху Big Data, когда всяких данных, в т.ч. основных, становится все больше, проблема эффективного управления ими особенно актуальна.
Основные данные отличаются от транзакционных большей стабильностью, меньшими объемами и усложненной структурой. Например, разные сведения о клиенте в различных бизнес-подразделениях. При этом метаданные, которые описывают непосредственно НСИ, могут меняться достаточно часто. Поэтому требуется не только сбор, но и представление мастер-данных для последующего бизнес-анализа. Необходимо работать с текущими данными и анализировать историю их изменений [3]. Например, чтобы сохранить накопленные клиентом бонусы при смене наименования фирмы или изменении паспортных данных физлица.
Таким образом, главная цель управления мастер-данными – это гарантировать отсутствие пропущенных, повторяющихся, неполных и противоречивых записей об объектах бизнес-домена во всех корпоративных информационных системах. Для этого существует целая ИТ-дисциплина — Master Data Management, которая включает целый ряд структурированных подходов, процессов и инструментов по эффективному управлению НСИ.
Процессы и инструменты Master Data Management
Задачи MDM включают сбор, накопление, очистку, сопоставление, консолидацию, проверку качества и распространение корпоративных данных, а также обеспечение их последующей согласованности и контроль использования в различных операционных и аналитических приложениях [1]. Обычно эти операции реализуются с помощью специализированного программного обеспечения. Например, Informatica Data Quality, Microsoft Data Quality Services, Oracle Enterprise Data Quality, SAP Data Services, Talend Open Studio for Data Quality и другие коммерческие продукты, а также открытые сервисы. Аналитическое агентство Gartner составило рейтинг популярных MDM-решений, проранжировав их по удобству использования, функциональным возможностям и отзывам профессионалов [4].
С технической точки зрения внедрение MDM сводится к синхронизации и единому представлению справочных данных в разных информационных системах. Традиционно это делается с помощью следующих вариантов [5]:
- централизованная НСИ, когда в качестве эталонного хранилища НСИ выбирается одна информационная система, а остальные считывают данные из нее. При простоте внедрения и поддержки актуальности данных, такая MDM-система не является отказоустойчивой и критически зависит от текущей доступности центрального звена.
- аналитическая НСИ, когда мастер-данные создаются в отдельных бизнес-приложениях, а затем отправляются в общую систему, где из этих элементов формируется единая запись справочника. Достоинство этого метода – быстрота внедрения с минимальным вмешательством в клиентские системы. Недостаток – отсутствие согласованных мастер-данных в конечных бизнес-приложениях.
- гармонизированная НСИ, которая сочетает преимущества двух вышеперечисленных подходов, но лишена их недостатков. За счет взаимной интеграции центрального звена с отдельными бизнес-приложениями, она позволяет заводить мастер-данные в локальных системах и сопоставлять с уже существующими записями, искать потенциальные дубли, разрешать конфликты одновременного изменения одних и тех же данных в разных источниках и синхронизировать локальные записи НСИ. Минусом этого варианта является сложность его реализации и необходимость модификации клиентских приложений.
Третий подход наиболее перспективен для MDM-операций с помощью инструментов Big Data. В частности, именно он позволяет использовать для этого средства искусственного интеллекта. Как это реализуется на практике, мы рассмотрим далее.
Big Data и Machine Learning для MDM
Исследовательское бюро Gartner не случайно включило расширенное управление данными в ТОП-10 трендов в области Data & Analytics. Алгоритмы машинного обучения и другие методы искусственного интеллекта могут выявить взаимосвязи между разными записями для обнаружения дублей и сопоставления различных представлений одного объекта. Так средства Machine Learning позволяют автоматизировать и сделать MDM-процессы самонастраивающимися [6]. А интерактивный полнотекстовый поиск корректных наименований справочных объектов можно реализовать с помощью Apache Solr или Elasticsearch. Например, именно так отечественный маркетплейс одежды и аксессуаров Lamoda сделал на своем сайте сервис подсказок, который помогает пользователям найти нужную вещь среди 4 миллионов товаров и 3 тысяч брендов. По сути, все эти объекты представляют собой мастер-данные или записи справочников НСИ. Подробнее об этом кейсе мы писали здесь.
Также имеет смысл интегрировать MDM-системы не только с бизнес-приложениями, но и с корпоративными хранилищами и озерами данных на базе Apache Hadoop для анализа исторической информации. В свою очередь, пакетный обмен данными между MDM-системой и локальными СУБД клиентских систем, может быть реализован с помощью ETL-процессов, например, Apache Airflow. Таким образом, технологии Big Data позволяют средствам Master Data Management отвечать потребностям современного бизнеса [7].
В следующей статье мы продолжим разговор про Big Data Management и рассмотрим, что такое Data Lineage и Provenance. А как обеспечить эффективное управление НСИ с помощью больших данных и Machine Learning, вы узнаете на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:
Источники
- https://ru.wikipedia.org/wiki/Управление_основными_данными
- https://www.ibmbigdatahub.com/blog/what-marketing-campaigns-are-missing-mdm-express
- https://www.osp.ru/os/2007/05/4260254/
- https://www.gartner.com/reviews/market/master-data-management-solutions
- https://habr.com/ru/company/navicon/blog/260927
- https://www.gartner.com/smarterwithgartner/gartner-top-10-data-analytics-trends/
- https://www.cmswire.com/digital-experience/5-master-data-management-trends-to-watch/