Проанализировав предложения крупных PaaS/IaaS-провайдеров по развертыванию облачного кластера, сегодня мы сравним 4 наиболее популярных дистрибутива Hadoop от компаний Cloudera, HortonWorks, MapR и ArenaData, которые используются при развертывании локальной инфраструктуры для проектов Big Data. Как мы уже отмечали, эти дистрибутивы распространяются бесплатно, но поддерживаются на коммерческой основе.
Некоторые отличия популярных дистрибутивов Hadoop
Несмотря на общую прикладную направленность, каждый из этих продуктов обладает своими уникальными особенностями:
- корпоративное решение ClouderaCDH включает собственную подсистему управления кластером Cloudera Manager и характеризуется высокой стоимостью технического сопровождения (около $4 тысяч в год за узел кластера), поэтому позволить ее себе могут только очень крупные компании. Cloudera Manager позволяет автоматизировать создание и модификацию локальных и облачных Hadoop-сред, отслеживать и анализировать эффективность выполнения заданий, настраивать оповещения о наступлении событий, связанных с эксплуатацией инфраструктуры распределённой обработки данных [1].
- Hortonworks Data Platform включает сервисы DataPlane (Apache Atlas и Cloudbreak) для интеграции со сторонними решениями и аналогичную Cloudera Manager подсистему управления кластером Hortonworks Management Center на основе Apache Ambari, которая предоставляется в каждом дистрибутиве совершенно бесплатно, в отличие от Cloudera CDH [2].
- Дистрибутив MapR использует собственную распределенную файловую систему MapR-FS вместо HDFS, свою базу данных MapR-DB и уникальный распределенный брокер программных сообщений MapR Event Store вместо Apache Kafka [3]. Коммерческие версии (Enterprise Edition M5 и Enterprise Database Edition М7) обеспечивают высокую доступность и защиту данных, включая мультиузловый NFS, а также данные структурированных таблиц изначально на уровне хранилища [4].
- ArenaData (Аренадата) – российское программное обеспечение с полной локализацией и технической поддержкой на русском языке без проприетарных компонентов, весь дистрибутив собран из открытых проектов Apache Software Foundation [5].
Компоненты популярных дистрибутивов Хадуп для проектов Big Data
В таблице показан компонентный состав экосистемы каждого из анализируемых дистрибутивов Hadoop с учетом их функционального назначения.
Дистрибутив |
Общие компоненты |
Файловая система |
Управление кластером, координация, планирование |
Управление интеграцией и потоками данных |
Обеспечение безопасности |
SQL СУБД |
NoSQL СУБД |
Потоковая обработка данных |
Брокер сообщений |
|
Cloudera |
Hadoop Common, MapReduse, Yarn, Tez,полнотекстовый поиск Solr, язык запросов к слабоструктурированным данным Pig |
HDFS |
Cloudera Manager |
Sqoop, Flume |
Cloudera Navigator Encrypt, Sentry, RecordService |
Mahout |
Kafka |
|||
HortonWorks |
Hadoop Common, MapReduse, Yarn, Tez,полнотекстовый поиск Solr, язык запросов к слабоструктурированным данным Pig |
HDFS |
Oozie, ZooKeeper, Ambari |
Sqoop, Flume, Falcon, NFC, WebHDFS |
Kerberos, Ranger, Knox |
Hive, HCatalog, |
HBase, Accumlo, |
MLLib |
Kafka |
|
MapR |
Hadoop Common, MapReduse, Yarn, Tez,полнотекстовый поиск Solr, язык запросов к слабоструктурированным данным Pig |
MapR-FS |
Oozie, ZooKeeper, Sahara |
Sqoop, Flume, Hue, HttpFS |
Kerberos, MapR Native Security |
HBase |
Storm |
Mahout, GraphX, MLLib |
MapR Event Store |
|
ArenaData |
Hadoop Common, MapReduse, Yarn, Tez,полнотекстовый поиск Solr, язык запросов к слабоструктурированным данным Pig |
HDFS |
Oozie, ZooKeeper, Ambari |
Sqoop, Flume, NFC, WebHDFS, |
Atlas, Ranger, Knox |
Hive |
HBase |
Mahout, Giraph, MLLib |
Kafka |
Таблица позволяет сделать следующие выводы:
- Практически все дистрибутивы, кроме MapR, содержат 4 основных модуля Apache Hadoop (HDFS, MapReduce, Yarn и Hadoop Common). MapR использует MapR-FS – свою распределенную файловую систему вместо HDFS;
- В состав каждого дистрибутива входит Apache Tez – фреймворк, работающий поверх Hadoop YARN для быстрой обработки групповых и интерактивных данных, которым нужна интеграция с Hadoop YARN, Apache Solr – продукт полнотекстового и фасетного поиска, динамической кластеризации, интеграции с базами данных и обработка документов со сложным форматом, а также Apache Pig – высокоуровневый язык программирования запросов к большим слабоструктурированным наборам данных.
- Каждый дистрибутив содержит средства управления потоками данных Sqoop и Flume, координаторы и планировщики задач (Zookeeper и Oozie), а также реляционную СУБД Hive и NoSQL
- Дистрибутивы отличаются средствами обеспечения безопасности, потоковой обработки данных, машинного обучения и системами распределенных брокеров программных сообщений. Для потоковой обработки MapR и Hortonworks используют Apache Storm, Cloudera — Spark Streaming, а ArenaData — NiFi, NFC, Flink. Инструменты Machine Learning в Cloudera представлены в виде Apache Mahout, в Hortonworks – Apache Spark MLLib, а MapR и ArenaData используют оба этих продукта. Наконец, почти все дистрибутивы, кроме MapR, применяют Apache Kafka для быстрой обработки программных сообщений между приложениями. MapR использует собственную альтернативу — MapR Event Store.
Подводя итог сходствам и различиям наиболее популярных дистрибутивов Hadoop, следует отметить, что каждый из них может успешно применяться в качестве основы для локальной инфраструктуры Big Data проектов. А, поскольку все они распространяются бесплатно, при выборе следует учитывать стоимость технической поддержки и сопровождения на вашем кластере, а также полноту программной документации. Впрочем, если вы хотите собрать свой Хадуп самостоятельно, обратите внимание на проект Apache Bigtop, о котором мы рассказываем здесь. А о том, почему иногда версия сообщества предпочтительнее коммерческих продуктов, читайте в нашей новой статье.
Как работать со всеми этими и другими инфраструктурными решениями Hadoop для больших данных (развертывание, настройка, администрирование, обеспечение безопасности и использование кластера) узнайте в нашем учебном центре – практические курсы обучения пользователей, инженеров, администраторов и аналитиков Big Data в Москве:
- Основы Hadoop
- Администрирование кластера Hadoop
- Безопасность озера данных Hadoop
- Hadoop для инженеров данных
- Построение конвейеров обработки данных с Apache Airflow и Arenadata Hadoop
Источники
- https://ru.wikipedia.org/wiki/Cloudera
- https://m.habr.com/ru/post/151062/
- https://mapr.com/blog/kafka-vs-mapr-streams-why-mapr/
- https://mapr.com/docs/61/MapROverview/c_security.html
- https://arenadata.tech/products/hadoop/
[…] правило, в состав готовых д… Hadoop (Cloudera, HortonWorks, ArenaData, MApR и др., а […]