Продолжая разговор про качество данных, сегодня мы рассмотрим организационную сторону этого аспекта и расскажем, что такое ответственность за большие данные и чем занимается дата стюард. Читайте в нашей статье про процессы Data Governance и особенности тактического управления данными: зачем нужен Data Steward, какую пользу он приносит бизнесу и сколько ему за это платят.
Сложности управления данными или зачем помощники Data Quality инженеру
Управление качеством данных не сводится только к обнаружению пропусков, дублей или аномальных значений. Технической стороной этого вопроса обычно занимается инженер по качеству данных (Data Quality Engineer) или тестировщик, однако исходная точка процессов Data Governance лежит в бизнес-плоскости. Управления качеством данных – это сквозной процесс в рамках операционной деятельности всего предприятия. Поэтому, по аналогии с владельцами бизнес-процессов, необходимо выделение владельцев данных. Data Owner отвечает за ввод данных в информационные системы, регулируя процессы управления качеством и безопасности данных в зоне своей ответственности. При этом зона ответственности определяется лишь природой данных и не зависит от программных приложений их использования [1].
Однако владелец данных – это роль без регулярного выполнения определенных функциональных обязанностей. Она предполагает полномочия вносить изменения, а также иметь доступ к бюджету или ресурсам для проведения мероприятий по очистке данных, однако не включает выполнение самих этих операций [2]. Поэтому возникла профессия дата стюарда – специалиста, который определяет требования и решает инциденты с качеством данных в рамках своего бизнес-подразделения. На практике дата-стюарды тесно взаимодействуют с владельцами данных, экспертами предметной области и аналитиками, которые готовят бизнес-требования к отчетам, приложениям, бизнес-терминам, справочникам и расчетам [3].
Практическое применение Big Data аналитики для решения бизнес-задач
Код курса
PRUS
Ближайшая дата курса
2 декабря, 2024
Продолжительность
32 ак.часов
Стоимость обучения
96 000 руб.
Чем занимается дата стюард
Глобальное управление данными (Data Governance) сосредоточено на политиках и процедурах высокого уровня, а Data Stewardship – на тактической координации и реализации процессов работы с информацией. В частности, Data Steward отвечает за выполнение политик использования корпоративных данных и их безопасности, связывая ИТ-инженеров с бизнес-подразделениями. Обычно функциональные обязанности дата стюарда включают следующее [4]:
- определение требований к данным на основе бизнес-контекста своего подразделения и способы их использования для достижения корпоративных целей;
- документирование и обеспечение соблюдения правил сбора, хранения и использования данных;
- определение степени доверия к источникам данных;
- обеспечение и гарантия качества корпоративных данных (собранных, хранящихся и используемых);
- контроль инцидентов, связанных с качеством данных;
- выполнение политик и стандартов, установленных программой управления данными;
- обеспечение доступа к нужным данным нужным пользователям в нужное время в зависимости от того, является ли информация личными, корпоративными или конфиденциальными данными и т. д.;
- помощь инженерам и аналитикам данных, а также Data Scientist’ам в проектировании и реализации процессов и процедур для сбора, хранения, использования и безопасности данных.
Таким образом, дата стюард несет ответственность за управление данными внутри своего бизнес-подразделения и использование информации, а также следит за соблюдением правил работы с ней в соответствии с корпоративными программами и политиками управления данными.
Что должен знать и уметь Data Steward
При том, что дата стюард позиционируется, в первую очередь, как транслятор между бизнесом и инженерией управления данными, он должен обладать следующими hard skills [5]:
- опыт в программировании и понимание теории баз данных (SQL, NoSQL, NewSQL);
- знание принципов хранения и обработки данных в стеке Big Data – пакетные и потоковые вычисления, Hadoop MapReduce, функциональные возможности Apache Spark, Kafka, NiFi, AirFlow, HDFS, HBase, Hive, Impala и другие средства SQL-on-Hadoop;
- основы проектирования и работы с корпоративными хранилищами и озерами данных (Data WareHouse, Data Lake), а также ETL/ELT-процессами;
- знакомство с инструментами обеспечения качества данных, например, Informatica Data Quality, Microsoft Data Quality Services, Oracle Enterprise Data Quality, SAP Data Services, Talend Open Studio for Data Quality и другие подобные системы;
- методы и техники бизнес-анализа для выявления и формализации требований к данным;
- нотации моделирования данных, в т.ч. процессные, например, DFD-диаграммы, а также логические модели ERD с целью описания зависимостей между справочниками информационных систем;
- навыки разработки технической документации.
Также стоит отметить soft skills, обязательные для успешного дата стюарда [6]:
- коммуникативные навыки;
- любознательность;
- способности к командному взаимодействию;
- системное мышление;
- знание доменной области.
Аналитика больших данных для руководителей
Код курса
BDAM
Ближайшая дата курса
13 января, 2025
Продолжительность
24 ак.часов
Стоимость обучения
72 000 руб.
Сколько стоит Data Stewardship: обзор рынка труда
На апрель 2020 года отечественный рынок труда демонстрирует не слишком высокий спрос на дата стюардов. Большинство вакансий открыты крупными организациями, которые стремятся стать data-driven и тесно работают со стеком технологий Big Data, например, банки (Газпромбанк, Сбербанк), ритейл (X5 Retail Group), телекомы и т.д. При этом функциональные обязанности Data Steward’а в российских компаниях сильно перекликаются с задачами аналитика и инженера данных, а также архитектора Big Data и Data Scientist’а. В большинстве объявлений зарплатная вилка не указана. Зарубежный рынок демонстрирует существенное разнообразие доменных областей: медицина, образование, промышленность, мода и прочие отрасли. Также иностранные HR-менеджеры не скупятся на детали, подробно описывая рабочие задачи и технический бэкграунд желаемого специалиста. Годовая зарплата дата стюарда варьируется от 50 до 100 тысяч долларов, что составляет от 300 до 600 тысяч рублей в месяц [7]. Однако, с учетом цифровизации каждого сектора отечественной экономики, логично спрогнозировать увеличение интереса к дата стюардам на российском рынке труда. Возможно, уже в ближайшем будущем Data Steward станет еще одной востребованной профессией в мире Big Data, которая принесет бизнесу следующие преимущества [4]:
- улучшенное качество данных;
- документация данных;
- четкие политики управления и процессы обработки данных;
- эффективные программы аналитики;
- объективное принятие управленческих решений на основе данных;
- улучшенное соблюдение правил работы с данными;
- снижение ошибок в процессах и решениях, основанных на данных;
- снижение рисков, связанных с требованиями безопасности и конфиденциальности данных.
Подготовка данных для Data Mining на Python
Код курса
DPREP
Ближайшая дата курса
по запросу
Продолжительность
32 ак.часов
Стоимость обучения
72 000 руб.
В следующей статье мы рассмотрим процессы управления основными данными или нормативно-справочной информацией (НСИ). А как организовать эффективное управление большими данными и обеспечить их качество, вы узнаете на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:
- http://www.tadviser.ru/index.php/Статья:Управление_качеством_данных
- https://www.nicolaaskham.com/blog/2019/8/2/data-owners-and-data-stewards-what-is-the-difference
- https://www.e-xecutive.ru/management/itforbusiness/1988069-zachem-bankam-nuzhen-chief-data-officer.amp
- https://searchdatamanagement.techtarget.com/definition/data-stewardship
- https://analyticsindiamag.com/data-steward-roles-responsibilities/
- https://blogs.sas.com/content/datamanagement/2018/11/27/data-steward-concierge-analytics/
- https://www.salary.com/research/salary/benchmark/data-steward-salary