Самообслуживаемая аналитика больших данных – один из главных трендов в современном мире Big Data, который дополнительно стимулирует цифровизация. В продолжение темы про self-service Data Science и BI-системы, сегодня мы рассмотрим, что такое Cloudera Data Science Workbench и чем это зарубежный продукт отличается от отечественного Arenadata Analytic Workspace на базе Apache Zeppelin.
Что такое Cloudera Data Science Workbench и кто этим пользуется
По аналогии с российским решением Arenadata Analytic Workspace на основе open-source продукта Apache Zeppelin, Cloudera Data Science Workbench поддерживает концепцию самообслуживаемого сервиса для непрерывного цикла аналитики Big Data в корпоративных масштабах. Он позволяет управлять собственными DataOps-конвейерами, ускоряя проекты машинного обучения от исследования до промышленной эксплуатации, включая поддержку R, Python и Scala для безопасного выполнения вычислений с данными в кластерах Hadoop [1]. Такое позиционирование является первым отличием Cloudera Data Science Workbench (CDSW) от Arenadata Analytic Workspace (AAW): AAW представляется, в первую очередь, как средство анализа и визуализации данных для Data Analyst’ов. CDSW же фокусируется именно на реализации Machine Learning проектов и ориентируется, прежде всего на Data Scientist’ов и специалистов по машинному обучению. В частности, для этого CDSW позволяет использовать Git для управления версиями проектов, что облегчает совместную работу [2].
Как и Arenadata Analytic Workspace, CDSW предоставляет наглядный веб-интерфейс для визуализации результатов Data Science исследований, а также инструменты для разработки ML-моделей на Python, R и Scala. Наконец, также как AAW тесно интегрирован с другими продуктами Arenadata в рамках единой платформы аналитики больших данных, так и CDSW является частью Big Data экосистемы Cloudera. Настройка взаимодействия различных кластерных сервисов при этом выполняется с помощью Cloudera Manager [1].
Security-опции
С точки зрения обеспечения информационной безопасности на корпоративном уровне обе системы используют похожий инструментарий: аутентификацию через LDAP/Active Directory, а также поддержку нативного Kerberos-протокола в кластерах Apache Hadoop. Однако, security-опции в Cloudera Data Science Workbench немного шире: помимо SAML и LDAP аутентификации также поддерживается SSH-ключи, API-аутентификация и расширенная настройка доступа к ML-моделям в GUI по уникальному ключу. Также поддерживается авторизация на уровне Hadoop-кластера, пользовательских ролей и контроль доступа для команд и проектов [3]. В Apache Zeppelin, на базе которого работает Arenadata Analytic Workspace, поддерживается базовая аутентификация через NGINX и LDAP, а также Java-фреймворк Apache Shiro. Доступна настройка авторизации для каждого блокнота через указание владельцев, читателей и писателей, а также авторизация интерпретаторов и источников данных [4].
На практике пользователи CDSW отмечают некоторое неудобства в совместной работе над одними и теми же проектами. В частности, владелец сеанса может использовать идентификационные данные пользователя в своих текущих сеансах для взаимодействия с кластером Hadoop без возможности управлять разрешениями соавторов [2].
Docker и прочая контейнеризация
В CDSW Docker-контейнеры нужны для доставки компонентов приложения и безопасного выполнения изолированных пользовательских рабочих нагрузок в многопользовательской среде. При этом каждый Docker-контейнер предоставляет собой визуализированный шлюз с безопасным доступом к службам кластера Cloudera Distribution Hadoop (CDH), таким как HDFS, Spark 2, Hive и Impala. Зависимости CDH и конфигурация клиента, управляемая Cloudera Manager, монтируются с базового хоста шлюза. Рабочие нагрузки, использующие CDH-сервисы, такие как HDFS, Spark, Hive и Impala, выполняются во всем кластере CDH. Для одновременного доступа нескольких пользователей CDSW с помощью Kubernetes разделяет и запускает контейнеры на нескольких хостах, выделенных в качестве шлюзов. При этом ни Docker, ни Kubernetes не доступны конечным пользователям напрямую, все взаимодействие с CDSW ведется через веб-приложение [1].
В Arenadata Analytic Workspace Docker-контейнеры используются для установки и обновления всего продукта, а также расширения его функциональных возможностей через создание собственного Docker-образа [5]. Это полностью соответствует концепции self-service и автоматизации операций DataOps, о которых мы говорили вчера.
CDSW или AAW: что и когда выбирать
Подводя итог сравнению Arenadata Analytic Workspace и Cloudera Data Science Workbench, подчеркнем, что при некотором сходстве, данные инструменты не являются непосредственными аналогами друг друга и потому их нельзя назвать прямыми конкурентами. Каждый из них имеет свою целевую аудиторию: для AAW – это аналитики данных, которым в большей степени нужна визуализация, а CDSW ориентирован на команды ML-разработчиков и Data Scientist’ов. Однако, при этом в Cloudera Data Science Workbench автодополнение кода доступно только для R и Python, но не для Scala. Кроме того, в Scala Experiments отсутствуют некоторые функциональные возможности, такие как указание аргументов, которые будут использоваться во время запуска эксперимента, а также отслеживание метрик и содержимого файлов. Кроме того, в CDSW ML-модели Scala не поддерживаются. Наконец, практические пользователи отмечают, что Apache Zeppelin, на базе которого работает Arenadata Analytic Workspace, предоставляет больше готовых возможностей визуализации данных по сравнению с CDSW [2].
Еще одним важным отличием с точки зрения цифровизации отечественных предприятий является факт того, что Arenadata Analytic Workspace – это отечественный продукт на базе открытых технологий, доступный для бесплатного скачивания с коммерческой поддержкой. В отличие от этого, стоимость годовой подписки на Cloudera Data Science Workbench стартует от $5000 [6]. Таким образом, стоимость эксплуатации и поддержки также является весьма значимым фактором при выборе self-service решения для Data Science и BI-аналитики.
Что именно выбрать для аналитики больших данных в цифровизации своего бизнеса, а также государственных и муниципальных предприятий, вы узнаете на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:
- Аналитика больших данных для руководителей
- Построение эффективных конвейеров обработки данных с Apache Airflow и Arenadata Hadoop
- Анализ данных с Apache Spark
Источники
- https://docs.cloudera.com/documentation/data-science-workbench/1-7-x/topics/cdsw_overview.html
- https://www.adaltas.com/en/2019/02/28/intro-cloudera-data-science-workbench/
- https://docs.cloudera.com/documentation/data-science-workbench/1-7-x/topics/cdsw_security.html
- https://zeppelin.apache.org/docs/0.6.2/security/
- https://docs.arenadata.io/aaw/admin/update.html
- https://www.cloudera.com/products/pricing.html