В январе 2021 года российский разработчик решений для хранения и аналитики больших данных, компания Arenadata, представила новый продукт в линейке сервисов отечественного дистрибутива Apache Hadoop. Модуль Arenadata Platform Security обеспечивает централизованное управление групповыми политиками безопасности кластера. Разбираемся, что представляет собой эта система, как она связана с Apache Ranger и чем полезна администратору Big Data.
Что такое Arenadata Platform Security и зачем это администратору Big Data
Arenadata Platform Security (ADPS) – это сервис централизованного управления групповыми политиками безопасности кластера Apache Hadoop в составе единой корпоративной платформы сбора и хранения больших данных Arenadata Enterprise Data Platform (EDP). Дистрибутив Arenadata Hadoop является отечественным open-source продуктом и доступен в двух версиях:
- Сommunity – для бесплатного использования через самостоятельное скачивание с официального сайта компании Arenadata;
- Enterprise – адаптация для корпоративной эксплуатации с коммерческой поддержкой.
ADPS 1.0 поставляется как бесплатное дополнение к Enterprise-редакции последних версий дистрибутива Arenadata Hadoop 2.1 на базе релиза 3.x, про обновления которого в январе 2021 года мы писали здесь. В дальнейшем компания Arenadata планирует поставлять все компоненты для организации и настройки безопасности кластера Hadoop в рамках отдельного модуля ADPS.
Основными возможностями, которые Arenadata Platform Security предоставляет администратору Hadoop-кластера, являются следующие [1]:
- централизованное управление безопасностью данных при работе с множеством сервисов и кластеров Arenadata Hadoop;
- комплексный подход к организации безопасности с помощью защищенного периметра, аутентификации и авторизации пользователей, аудита пользовательских действий и защиты данных;
- единая система обеспечения безопасности одновременно для нескольких инсталляций, кластеров и гетерогенных инфраструктур;
- снижение эксплуатационных издержек на администрирование Big Data инфраструктуры;
- нативная интеграция с другими решениями Arenadata и полностью автоматизированное развертывание, в т.ч. установка и настройка конфигураций, новых продуктов с помощью визуального интерфейса в оркестраторе Arenadata Cluster Manager.
Компания Arenadata планирует в ближайшее время подключить ADPS к другим компонентам EDP-платформы, таким как, Arenadata Streaming на базе Kafka и NiFi, о котором мы рассказывали в этой статье. В дальнейшем ADPS станет отдельной зонтичной надстройкой для управления безопасностью всех компонентов корпоративной платформы сбора и хранения данных Arenadata Enterprise Data Platform. В феврале 2022 года разработчики добавили поддержку защищенного протокола Kerberos в Arenadata Hadoop, Streaming и Platform Security, о чем мы рассказываем здесь.
Безопасность озера данных Hadoop
Код курса
DSEC
Ближайшая дата курса
по запросу
Продолжительность
24 ак.часов
Стоимость обучения
72 000 руб.
В основе ADPS лежит Apache Ranger — инфраструктура для мониторинга и управления комплексной безопасностью данных на платформе Hadoop. Подробнее о возможностях Apache Ranger мы поговорим далее, а пока отметим обновления Arenadata Hadoop 2.1 с модулем Platform Security [1]:
- обновление Ranger для поддержки Apache Hadoop 3.1, Hive 3.0, Hbase2.0, Kafka 2.0.0 и Ozone;
- поддержка плагина для включения, мониторинга и управления Elasticsearch;
- зоны безопасности в Apache Ranger;
- поддержка доверенного прокси;
- интеграция KeySecure HSM;
- поддержка пользовательских условий на уровне политики.
- улучшения поддержки ролей в политиках Ranger и плагина Hive для поддержки SQL.
Как Apache Ranger обеспечивает безопасность Hadoop-кластера
Напомним, за комплексное управление безопасностью Hadoop-кластером отвечает инфраструктура Apache Ranger, которая обеспечивает [2]:
- централизованное администрирование задач безопасности в интерфейсе пользователя или через REST API;
- центральное управление политиками контроля доступак данным — файлам, папкам, СУБД, таблицам и столбцам в HDFS, Hive и Hbase, Knox, Solr, Kafka, и YARN;
- аутентификацию пользователей, в т.ч. через LDAP/AD;
- стандартизированный метод детальной авторизациипользователей для работы со всеми всех компонентами платформы Hadoop, включая RBAC, сопоставление групп с LDAP/AD, управление доступом на основе атрибутов и прочие расширенные настройки;
- мониторингзапросов доступа к данным в режиме реального времени.
Поскольку Apache Ranger хранит политики безопасности в реляционной СУБД, нужно настроить конфигурации используемой базы данных, например, так [3]:
- в случае MySQL машина для хранения таблиц политики администратора Ranger должна поддерживать транзакции, как это делает InnoDB;
- при использовании PostgreSQL Server на сервере Amazon RDS пользователь базы данных Ranger с ролью CREATEDB должен быть создан до его установки;
- для Oracle из-за ограничений Amazon RDS нужно вручную создать пользователя базы данных Rangerи табличного пространства, и предоставить ему необходимые привилегии;
- коннектор или JDBC-драйвер Oracle для соединения с базой данных Ranger должны находиться в папке общего доступа Java.
А для хранения журналов аудита и поиска по ним в пользовательском интерфейсе Ranger использует платформу полнотекстового поиска Apache Solr, подобную Elasticsearch. Solr должен быть установлен и настроен до инсталляции Ranger [3].
Администрирование кластера Hadoop
Код курса
HADM
Ближайшая дата курса
по запросу
Продолжительность
40 ак.часов
Стоимость обучения
120 000 руб.
Больше деталей по администрированию и эксплуатации Hadoop-кластеров, в т.ч. в рамках платформы Arenadata, для эффективной аналитики больших данных вы узнаете на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:
- Основы Hadoop
- Администрирование кластера Hadoop
- Основы Arenadata Hadoop
- Администрирование кластера Arenadata Hadoop
- Hadoop для инженеров данных
- Безопасность озера данных Hadoop
Источники
- https://arenadata.tech/about/news/arenadata-platform-security/
- https://ranger.apache.org/
- https://docs.arenadata.io/adh/v1.4.1/security/authorization.html