Продолжая разговор про качество данных, сегодня мы рассмотрим организационную сторону этого аспекта и расскажем, что такое ответственность за большие данные и чем занимается дата стюард. Читайте в нашей статье про процессы Data Governance и особенности тактического управления данными: зачем нужен Data Steward, какую пользу он приносит бизнесу и сколько ему за это платят.
Сложности управления данными или зачем помощники Data Quality инженеру
Управление качеством данных не сводится только к обнаружению пропусков, дублей или аномальных значений. Технической стороной этого вопроса обычно занимается инженер по качеству данных (Data Quality Engineer) или тестировщик, однако исходная точка процессов Data Governance лежит в бизнес-плоскости. Управления качеством данных – это сквозной процесс в рамках операционной деятельности всего предприятия. Поэтому, по аналогии с владельцами бизнес-процессов, необходимо выделение владельцев данных. Data Owner отвечает за ввод данных в информационные системы, регулируя процессы управления качеством и безопасности данных в зоне своей ответственности. При этом зона ответственности определяется лишь природой данных и не зависит от программных приложений их использования [1].
Однако владелец данных – это роль без регулярного выполнения определенных функциональных обязанностей. Она предполагает полномочия вносить изменения, а также иметь доступ к бюджету или ресурсам для проведения мероприятий по очистке данных, однако не включает выполнение самих этих операций [2]. Поэтому возникла профессия дата стюарда – специалиста, который определяет требования и решает инциденты с качеством данных в рамках своего бизнес-подразделения. На практике дата-стюарды тесно взаимодействуют с владельцами данных, экспертами предметной области и аналитиками, которые готовят бизнес-требования к отчетам, приложениям, бизнес-терминам, справочникам и расчетам [3].
Практическое применение Big Data Аналитики для решения бизнес-задач
Код курса
PRUS
Ближайшая дата курса
17 июля, 2023
Длительность обучения
32 ак.часов
Стоимость обучения
88 000 руб.
Чем занимается дата стюард
Глобальное управление данными (Data Governance) сосредоточено на политиках и процедурах высокого уровня, а Data Stewardship – на тактической координации и реализации процессов работы с информацией. В частности, Data Steward отвечает за выполнение политик использования корпоративных данных и их безопасности, связывая ИТ-инженеров с бизнес-подразделениями. Обычно функциональные обязанности дата стюарда включают следующее [4]:
- определение требований к данным на основе бизнес-контекста своего подразделения и способы их использования для достижения корпоративных целей;
- документирование и обеспечение соблюдения правил сбора, хранения и использования данных;
- определение степени доверия к источникам данных;
- обеспечение и гарантия качества корпоративных данных (собранных, хранящихся и используемых);
- контроль инцидентов, связанных с качеством данных;
- выполнение политик и стандартов, установленных программой управления данными;
- обеспечение доступа к нужным данным нужным пользователям в нужное время в зависимости от того, является ли информация личными, корпоративными или конфиденциальными данными и т. д.;
- помощь инженерам и аналитикам данных, а также Data Scientist’ам в проектировании и реализации процессов и процедур для сбора, хранения, использования и безопасности данных.
Таким образом, дата стюард несет ответственность за управление данными внутри своего бизнес-подразделения и использование информации, а также следит за соблюдением правил работы с ней в соответствии с корпоративными программами и политиками управления данными.
Что должен знать и уметь Data Steward
При том, что дата стюард позиционируется, в первую очередь, как транслятор между бизнесом и инженерией управления данными, он должен обладать следующими hard skills [5]:
- опыт в программировании и понимание теории баз данных (SQL, NoSQL, NewSQL);
- знание принципов хранения и обработки данных в стеке Big Data – пакетные и потоковые вычисления, Hadoop MapReduce, функциональные возможности Apache Spark, Kafka, NiFi, AirFlow, HDFS, HBase, Hive, Impala и другие средства SQL-on-Hadoop;
- основы проектирования и работы с корпоративными хранилищами и озерами данных (Data WareHouse, Data Lake), а также ETL/ELT-процессами;
- знакомство с инструментами обеспечения качества данных, например, Informatica Data Quality, Microsoft Data Quality Services, Oracle Enterprise Data Quality, SAP Data Services, Talend Open Studio for Data Quality и другие подобные системы;
- методы и техники бизнес-анализа для выявления и формализации требований к данным;
- нотации моделирования данных, в т.ч. процессные, например, DFD-диаграммы, а также логические модели ERD с целью описания зависимостей между справочниками информационных систем;
- навыки разработки технической документации.
Также стоит отметить soft skills, обязательные для успешного дата стюарда [6]:
- коммуникативные навыки;
- любознательность;
- способности к командному взаимодействию;
- системное мышление;
- знание доменной области.
Аналитика больших данных для руководителей
Код курса
BDAM
Ближайшая дата курса
28 июня, 2023
Длительность обучения
24 ак.часов
Стоимость обучения
66 000 руб.
Сколько стоит Data Stewardship: обзор рынка труда
На апрель 2020 года отечественный рынок труда демонстрирует не слишком высокий спрос на дата стюардов. Большинство вакансий открыты крупными организациями, которые стремятся стать data-driven и тесно работают со стеком технологий Big Data, например, банки (Газпромбанк, Сбербанк), ритейл (X5 Retail Group), телекомы и т.д. При этом функциональные обязанности Data Steward’а в российских компаниях сильно перекликаются с задачами аналитика и инженера данных, а также архитектора Big Data и Data Scientist’а. В большинстве объявлений зарплатная вилка не указана. Зарубежный рынок демонстрирует существенное разнообразие доменных областей: медицина, образование, промышленность, мода и прочие отрасли. Также иностранные HR-менеджеры не скупятся на детали, подробно описывая рабочие задачи и технический бэкграунд желаемого специалиста. Годовая зарплата дата стюарда варьируется от 50 до 100 тысяч долларов, что составляет от 300 до 600 тысяч рублей в месяц [7]. Однако, с учетом цифровизации каждого сектора отечественной экономики, логично спрогнозировать увеличение интереса к дата стюардам на российском рынке труда. Возможно, уже в ближайшем будущем Data Steward станет еще одной востребованной профессией в мире Big Data, которая принесет бизнесу следующие преимущества [4]:
- улучшенное качество данных;
- документация данных;
- четкие политики управления и процессы обработки данных;
- эффективные программы аналитики;
- объективное принятие управленческих решений на основе данных;
- улучшенное соблюдение правил работы с данными;
- снижение ошибок в процессах и решениях, основанных на данных;
- снижение рисков, связанных с требованиями безопасности и конфиденциальности данных.
Подготовка данных для Data Mining на Python
Код курса
DPREP
Ближайшая дата курса
11 июля, 2023
Длительность обучения
32 ак.часов
Стоимость обучения
66 000 руб.
В следующей статье мы рассмотрим процессы управления основными данными или нормативно-справочной информацией (НСИ). А как организовать эффективное управление большими данными и обеспечить их качество, вы узнаете на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:
- http://www.tadviser.ru/index.php/Статья:Управление_качеством_данных
- https://www.nicolaaskham.com/blog/2019/8/2/data-owners-and-data-stewards-what-is-the-difference
- https://www.e-xecutive.ru/management/itforbusiness/1988069-zachem-bankam-nuzhen-chief-data-officer.amp
- https://searchdatamanagement.techtarget.com/definition/data-stewardship
- https://analyticsindiamag.com/data-steward-roles-responsibilities/
- https://blogs.sas.com/content/datamanagement/2018/11/27/data-steward-concierge-analytics/
- https://www.salary.com/research/salary/benchmark/data-steward-salary