Ранее мы уже писали про DataOps- и DevOps-инженеров, а также про администраторов больших данных. Продолжая тему гибкого управления проектами (Agile) для повышения эффективности и ускорения бизнес-процессов, сегодня поговорим о том, какие еще специалисты нужны для успешного Big Data проекта.
Профильные категории и процессы Big Data проекта
Независимо от конечной цели и особенностей реализации, в команде любого проекта по большим данным выполняются все процессы по стандарту CRISP-DM, от формирования бизнес-требований до внедрения программного решения на основе разработанных аналитических моделей, в т.ч. с использованием машинного обучения (Machine Learning). Сгруппировав этапы разработки ПО со стадиями CRISP-DM, можно выделить 4 профильных категории Big Data проекта, в которых задействованы различные специалисты:
- Бизнес, куда входят специалисты предметной области (эксперты, потенциальные пользователи), посредники между проблемами и техническими решениями (аналитики, консультанты), а также менеджмент (заказчик, руководитель проекта);
- Данные (Data Professionals: аналитики, архитекторы, исследователи и инженеры данных) – люди, ответственные за сбор, преобразование, управление информационными потоками и моделями, а также извлечение полезных для бизнеса сведений из массивов Big Data и мониторинг их жизненного цикла;
- Реализация – разработчики программного обеспечения (программисты, тестировщики, UI/UX-дизайнеры) и программной документации (технические писатели), а также специалисты по развертыванию приложений с функциями системных администраторов и специалистов по информационной безопасности;
- Эксплуатация – техническая поддержка пользователей, мониторинг производительности приложений и актуальности данных, обеспечение информационной безопасности, включая защиту от взломов и утечек.
Отметим, что фаза реализации является фактическим окончанием проекта, т.к. здесь поставляется итоговый результат к конечному сроку. Эксплуатация – это уже штатный процесс, который выполняется регулярно. Поэтому важно разграничить временные роли участников проекта от лиц, задействованных в процессе на постоянной основе.
Кто входит в Big Data команду: временные роли Agile-проекта
Бизнес в Big Data
Бизнес формулирует проблему, цель, задачи и ресурсные ограничения проекта: сроки, бюджет, продуктовые требования и метрики оценки полезности. Высокая вовлеченность бизнеса – обязательное условие Agile-подхода, поэтому его представители также участвуют в процессах подготовки данных, реализации и эксплуатации. От бизнеса в команде проекта присутствуют следующие профильные роли:
- Эксперт – специалист предметной области, который может быть потенциальным пользователем разрабатываемого решения;
- Бизнес-аналитик, который вместе с экспертом и заказчиком выявляет проблему и формализует требования к продукту для ее решения, транслируя пожелания бизнеса на технический язык для data professional’ов и разработчиков, иногда консультируя по использованию готовых продуктов с учетом специфики прикладных процессов;
- Заказчик (спонсор) — лицо, ответственное за зарождение проекта, обеспечивающее стимул для его выполнения и решения основной бизнес-проблемы, обычно финансирующее проект и оценивающее значение конечных результатов с точки зрения его полезности для бизнеса;
- Руководитель (Project Manager) – куратор всех этапов проекта, который обеспечивает своевременное и качественное выполнение его задач.
Данные: большие и не очень
Данные – это жизнеобеспечение data—driven company, «кровь» цифрового предприятия, без которого невозможно его существование. За сбор, преобразование, управление данными, а также извлечение полезных для бизнеса сведений из массивов Big Data и мониторинг их жизненного цикла отвечают Data Professionals [1]:
- архитектор данных (Data Architect), который обладает системным видением всего проекта, включая особенности источников и моделей данных, процессов их интеграции и представления, а также технических средств реализации;
- аналитик данных (Data Analyst), отвечающий за построение гипотез и извлечение смысла из «сырых» массивов информации путем ее очистки, генерации признаков и других операций подготовки данных к моделированию. Также работает с витринами и структурированными хранилищами, создавая аналитические отчеты;
- инженер данных (Data Engineer) отвечает за создание и поддержку инфраструктуры Big Data, обеспечивая сбор, хранение и управление потоками данных в реальном времени;
- исследователь данных (Data Scientist)занимается интеллектуальным анализом структурированных и неструктурированных данных с помощью методов статистики, алгоритмов машинного обучения (Machine Learning) и предиктивной аналитики.
Реализация Big Data проекта по Agile
В рамках реализации решаются задачи разработки, тестирования и развертывания программного продукта на основе математических моделей, алгоритмов машинного обучения и архитектуры данных, предложенных специалистами по данным (Data Professionals). Фактически, здесь мы имеем дело с типичным набором DevOps-процессов, который выполняют:
- ИТ-архитектор (IT— Architect, Software Architect), который принимает ключевые проектные решения по дизайну программного продукта и её техническим интерфейсам [2], разбивая систему на независимые слабосвязанные модули (микросервисы), чтобы распараллелить задачи между несколькими программистами [3];
- разработчик ПО (программист, Software Engineer, Developer), который пишет и отлаживает код;
- тестировщик (Tester, QA) – специалист по оценке качества программного продукта, выявляющий ошибки и некорректную работу приложения, в т.ч. с использованием средств автоматизированного тестирования и машинного обучения [4];
- администратор локального кластера или облачной платформы, который развернет разработанное приложение в корпоративной ИТ-инфраструктуре и обеспечит доступ пользователей к нему согласно политике безопасности, заранее определенной бизнес-аналитиками и специалистами по данным (Data Professional’ами).
Для ускорения процессов реализации согласно Agile-подходу, часто функции программиста, тестировщика и специалиста по развертыванию совмещает DevOps-инженер, а за актуальность, своевременную доставку, мониторинг и управление данными в течение всего их жизненного цикла отвечает DataOps. Детально о сходстве и различии рабочих обязанностей этих профессионалов читайте здесь. Также мы описали, почему DevOps-инженера не заменит системный администратор.
Также на этапе реализации иногда привлекаются отдельные специалисты по информационной безопасности и защите данных. Для проектирования взаимодействия с пользователем и отрисовки элементов графического интерфейса нового приложения потребуются UI/UX-дизайнеры, а для создания программной документации, в т.ч. справочных руководств – технические писатели.
Эксплуатация Big Data
Как мы уже отметили ранее, эксплуатация является регулярным процессом, которые осуществляют штатные специалисты на постоянной основе, обеспечивая информационную безопасность, техническую поддержку, обучение и консультирование пользователей, а также отслеживая производительность приложений и актуальность данных. Какие именно профессионалы нужны для всех этих задач, рассмотрено далее.
Какие Data Professional’ы нужны для постоянной работы с большими данными
В рамках эксплуатации помимо консультанта, специалистов технической поддержки (в т.ч. системных администраторов), экспертов и непосредственных пользователей программных решений Big Data, встречается еще директор по данным (Chief Data Officer, CDO).
Эта позиция появилась совсем недавно и, по прогнозам аналитического агентства Gartner к 2021 году, станет обязательным в топ-менеджменте 75% крупных компаний, наравне с ИТ-директором (Chief Information Officer, CIO) и руководителями направлений. Главной задачей CDO является эффективная организация управления жизненным циклом данных таким образом, чтобы каждый корпоративный клиент (пользователь, информационная система или облачный сервис) вовремя получал нужную информацию в подходящем виде и приемлемом качестве [5]. Также директор по данным контролирует работу всех Data Professional’ов (архитектора, аналитика, исследователя и инженера данных) [6].
Как собрать свою Agile-команду для успешной реализации своего проекта по большим данным и корпоративной цифровизации, а также другие особенности ИТ-менеджмента узнайте на наших практических курсах «Аналитика больших данных для руководителей и менеджеров» в специализированном учебном центре для руководителей, аналитиков, архитекторов, инженеров и исследователей Big Data в Москве.
Источники
- https://antirabstvo.ru/blog/razobratsya-v-data-science-podborka-statej-kursov-i-konferentsij
- https://ru.wikipedia.org/wiki/Архитектор_программного_обеспечения
- https://bigdataschool.ru/wiki/agile
- https://reqtest.com/testing-blog/software-testing-trends-2019/
- https://www.cio.ru/news/190619-CDO-bez-iskusstvennogo-intellekta—dengi-na-veter
- https://www.osp.ru/os/2018/2/13054175
[…] мы расскажем в следующей стать&…. А получить […]
[…] В целом, услуги DevOps-инженер пока обходятся дороже, чем работа администратора Big Data и сисадмина. Этот факт обусловлен повышенным спросом на данную молодую профессию и вовсе не умаляет ценности других специали&…. […]