Мы уже рассказывали, что цифровизация и другие масштабные проекты внедрения технологий Big Data должны обязательно сопровождаться процедурами бизнес-анализа, начиная от выявления требований на старте до оценки эффективности уже эксплуатируемого решения. Сегодня рассмотрим, как задачи бизнес-анализа из руководства BABOK®Guide коррелируют с этапами методологии исследования данных CRISP-DM, которая считается стандартом де-факто в области Data Science.
Еще раз про CRISP-DM: что это и из чего состоит
CRISP-DM (Cross-Industry Standard Process for Data Mining) — это наиболее распространенная на практике методология выполнения Data Science проектов, которую принято называть межотраслевым стандартным процессом исследования данных. Он описывает жизненный цикл Data Science проектов в следующих 6 фазах, каждая из которых включает ряд задач:
- понимание бизнеса (Business Understanding), где через оценку текущей ситуации определяются бизнес-цели и требования, а также разрабатывается предварительный план проекта;
- начальное изучение данных (Data Understanding), включая их сбор, описание, исследование (поиск закономерностей, формирование гипотез) и проверку качества;
- подготовка данных (Data Preparation), когда из исходного набора данных формируется датасет для работы с моделями машинного обучения (Machine Learning) путем выполнения соответствующих операций Data Preparation – выборка очистка, генерация признаков, интеграция, форматирование, о чем мы писали здесь;
- моделирование (Modeling), где выбираются алгоритмы, пишутся тесты, строятся и обучаются модели Machine Learning, а также выполняется настройка их параметров и оценка качества;
- оценка решения (Solution Evaluation), когда качество ML-моделей анализируется с точки зрения достижения поставленных бизнес-целей и определяются дальнейшие шаги по улучшению результатов;
- внедрение (Deployment), которое предполагает развертывание полученных ML-моделей в промышленную эксплуатацию (production), включая разработку финальных отчетов по всему проекту (review).
Бизнес-анализ по BABOK®Guide
Если посмотреть на этот цикл работы с данными с точки зрения руководства по бизнес-анализу BABOK®Guide, можно найти интересные корреляции. Напомним, BABOK описывает набор задач профессиональной деятельности бизнес-аналитика, структурируя их по 6 областям знаний:
- Планирование и мониторинг бизнес-анализа (Business Analysis Planning and Monitoring) для организации деятельности бизнес-аналитиков и координации их усилий;
- Выявление и сотрудничество (Elicitation and Collaboration)с заинтересованными сторонами (стейкхолдерами) при выявлении и уточнении их потребностей, а также подтверждении результатов анализа;
- Управление жизненным циклом требований (Requirements Life Cycle Management)и технических проектов (дизайнов) через процедуры их поддержки и сопровождения от момента возникновения до устаревания;
- Анализ стратегии (Strategy Analysis) изменений предприятия от текущего состояния к желаемому, включая описание процессов и структур «как есть» (as is), определение желаемых показателей (as to be), анализ рисков и разработку оптимальных способов достижения запланированного будущего;
- Анализ требований и определение дизайнов (Requirements Analysis and Design Definition), где непосредственно выполняется разработка требований и технических проектов через их определение и моделирование, процедуры верификации и валидации, а также производится оценка потенциальной ценности предлагаемого решения.
- Оценка решения (Solution Evaluation), внедренного в каком-то виде (прототип или полностью готовый продукт), когда анализируются его фактические показатели производительности с учетом приносимой бизнесу ценности, а разрабатываются рекомендаций по улучшению.
CRISP-DM и BABOK: что общего
Накладывая области знаний бизнес-анализа по BABOK на цикл CRISP-DM, получаем следующие выводы:
- фаза «Понимание бизнеса (Business Understanding)» в CRISP-DM включает задачи областей знаний BABOK «Выявление и сотрудничество (Elicitation and Collaboration)», когда требуется взаимодействовать с заказчиками, потенциальными пользователями и другими стейкхолдерами, «Анализ стратегии (Strategy Analysis)» для оценки текущего и проектирования будущего состояния, достичь которого поможет разрабатываемый проект, а также «Анализ требований и определение дизайнов (Requirements Analysis and Design Definition)», когда описываются модели текущих и будущих бизнес-процессов, систем и структур;
- фаза «Оценка решения (Solution Evaluation)» CRISP-DM соответствует аналогичной области знаний BABOK, причем не только названием, поскольку здесь ведется не только непосредственная оценка результатов ML-моделирования, а измеряется эффективность всего решения (его программно-алгоритмической части, hardware и прочих компонентов по отдельности, а также в целом), далее данные показатели анализируются на предмет достижения запланированной полезности для бизнеса, описываются ограничения разработанного решения и среды, в которой планируется его использовать, а также формируются рекомендации по увеличению его ценности;
- задача «Планирование мониторинга и поддержки разработанного решения» в фазе «Внедрение (Deployment)» CRISP-DM аналогична целой области знаний «Планирование и мониторинг бизнес-анализа (Business Analysis Planning and Monitoring)» BABOK, которая является своего рода фреймворком для работы аналитика, интегрируя методы и инструменты организации профессиональной деятельности как в целом, так и в рамках отдельного проекта. Подчеркнем, что мы отметили общее соответствие операций планирования, мониторинга и поиска возможностей улучшения в разных профессиональных направлениях, а не говорим о совпадении инструментальных и технологических аспектов. Это означает, что, например, при планировании мониторинга и поддержки разработанного решения CRISP-DM фокусируется на отслеживании работоспособности внедренных в production ML-моделей, а BABOK имеет ввиду все рабочие задачи бизнес-аналитика, во всех областях знаний.
Таким образом, сходство многих задач CRISP-DM и руководства BABOK®Guide еще раз подчеркивает важность бизнес-анализа в проектах цифровизации, включая исследования Data Science и внедрение технологий Big Data. Завтра мы продолжим разговор про CRISP-DM и рассмотрим, как эта методология расширяется методами Agile и средствами DevOps, превращаясь в новую парадигму MLOps.
Как эффективно организовать деятельность по бизнес-анализу в проектах цифровизации частного бизнеса или цифровой трансформации государственных и муниципальных предприятий, вы узнаете на наших специализированных курсах в лицензированном учебном центре обучения и повышения квалификации разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:
- Аналитика больших данных для руководителей
- Лучшее из BABOK®Guide: ТОП-10 задач и 20+ техник для аналитика