Какой Hadoop лучше: сравнение 4 самых популярных дистрибутивов

Большие данные, Big Data, Hadoop, Apache, администрирование, инфраструктура

Проанализировав предложения крупных PaaS/IaaS-провайдеров по развертыванию облачного кластера, сегодня мы сравним 4 наиболее популярных дистрибутива Hadoop от компаний Cloudera, HortonWorks, MapR и ArenaData, которые используются при развертывании локальной инфраструктуры для проектов Big Data. Как мы уже отмечали, эти дистрибутивы распространяются бесплатно, но поддерживаются на коммерческой основе.

Некоторые отличия популярных дистрибутивов Hadoop

Несмотря на общую прикладную направленность, каждый из этих продуктов обладает своими уникальными особенностями:

  • корпоративное решение ClouderaCDH включает собственную подсистему управления кластером Cloudera Manager и характеризуется высокой стоимостью технического сопровождения (около $4 тысяч в год за узел кластера)поэтому позволить ее себе могут только очень крупные компании. Cloudera Manager позволяет автоматизировать создание и модификацию локальных и облачных Hadoop-сред, отслеживать и анализировать эффективность выполнения заданий, настраивать оповещения о наступлении событий, связанных с эксплуатацией инфраструктуры распределённой обработки данных [1].
  • Hortonworks Data Platform включает сервисы DataPlane (Apache Atlas и Cloudbreak) для интеграции со сторонними решениями и аналогичную Cloudera Manager подсистему управления кластером Hortonworks Management Center на основе Apache Ambari, которая предоставляется в каждом дистрибутиве совершенно бесплатно, в отличие от Cloudera CDH [2].
  • Дистрибутив MapR использует собственную распределенную файловую систему MapR-FS вместо HDFS, свою базу данных MapR-DB и уникальный распределенный брокер программных сообщений MapR Event Store вместо Apache Kafka [3]. Коммерческие версии (Enterprise Edition M5 и Enterprise Database Edition М7) обеспечивают высокую доступность и защиту данных, включая мультиузловый NFS, а также данные структурированных таблиц изначально на уровне хранилища [4].
  • ArenaData (Аренадата) – российское программное обеспечение с полной локализацией и технической поддержкой на русском языке без проприетарных компонентов, весь дистрибутив собран из открытых проектов Apache Software Foundation [5].

Компоненты популярных дистрибутивов Хадуп для проектов Big Data

В таблице показан компонентный состав экосистемы каждого из анализируемых дистрибутивов Hadoop с учетом их функционального назначения.

Дистрибутив

Общие компоненты

Файловая система

Управление кластером, координация, планирование

Управление интеграцией и потоками данных

Обеспечение безопасности

SQL СУБД

NoSQL СУБД

Потоковая обработка данных

Машинное обучение

Брокер сообщений

Cloudera

Hadoop Common, MapReduse, Yarn, Tez,полнотекстовый поиск Solr, язык запросов к слабоструктурированным данным Pig  

HDFS

Cloudera Manager

Sqoop, Flume

Cloudera Navigator Encrypt, Sentry, RecordService

Hive, Impala,

Hbase

Spark Streaming

Mahout

Kafka

HortonWorks

Hadoop Common, MapReduse, Yarn, Tez,полнотекстовый поиск Solr, язык запросов к слабоструктурированным данным Pig

HDFS

Oozie, ZooKeeper, Ambari

Sqoop, Flume, Falcon, NFC, WebHDFS

Kerberos, Ranger, Knox

Hive, HCatalog,

HBase, Accumlo,

Storm

MLLib

Kafka

MapR

Hadoop Common, MapReduse, Yarn, Tez,полнотекстовый поиск Solr, язык запросов к слабоструктурированным данным Pig

MapR-FS

Oozie, ZooKeeper, Sahara

Sqoop, Flume, Hue, HttpFS

Kerberos, MapR Native Security

Drill, Hive, Impala, Spark SQL

HBase

Storm

Mahout, GraphX, MLLib

MapR Event Store

ArenaData

Hadoop Common, MapReduse, Yarn, Tez,полнотекстовый поиск Solr, язык запросов к слабоструктурированным данным Pig

HDFS

Oozie, ZooKeeper, Ambari

Sqoop, Flume, NFC, WebHDFS,

Atlas, Ranger, Knox

Hive

HBase

NiFi, NFC, Flink

Mahout, Giraph, MLLib

Kafka

Таблица позволяет сделать следующие выводы:

  • Практически все дистрибутивы, кроме MapR, содержат 4 основных модуля Apache Hadoop (HDFS, MapReduce, Yarn и Hadoop Common). MapR использует MapR-FS – свою распределенную файловую систему вместо HDFS;
  • В состав каждого дистрибутива входит Apache Tez – фреймворк, работающий поверх Hadoop YARN для быстрой обработки групповых и интерактивных данных, которым нужна интеграция с Hadoop YARN, Apache Solr – продукт полнотекстового и фасетного поиска, динамической кластеризации, интеграции с базами данных и обработка документов со сложным форматом, а также Apache Pig – высокоуровневый язык программирования запросов к большим слабоструктурированным наборам данных.
  • Каждый дистрибутив содержит средства управления потоками данных Sqoop и Flume, координаторы и планировщики задач (Zookeeper и Oozie), а также реляционную СУБД Hive и NoSQL
  • Дистрибутивы отличаются средствами обеспечения безопасности, потоковой обработки данных, машинного обучения и системами распределенных брокеров программных сообщений. Для потоковой обработки MapR и Hortonworks используют Apache Storm, Cloudera — Spark Streaming, а ArenaData — NiFi, NFC, Flink. Инструменты Machine Learning в Cloudera представлены в виде Apache Mahout, в Hortonworks – Apache Spark MLLib, а MapR и ArenaData используют оба этих продукта. Наконец, почти все дистрибутивы, кроме MapR, применяют Apache Kafka для быстрой обработки программных сообщений между приложениями. MapR использует собственную альтернативу — MapR Event Store.
Большие данные, Big Data, Hadoop, Apache, администрирование, инфраструктура
Использовать уже готовый дистрибутив Apache Hadoop — отличное решение

Подводя итог сходствам и различиям наиболее популярных дистрибутивов Hadoop, следует отметить, что каждый из них может успешно применяться в качестве основы для локальной инфраструктуры Big Data проектов. А, поскольку все они распространяются бесплатно, при выборе следует учитывать стоимость технической поддержки и сопровождения на вашем кластере, а также полноту программной документации. Впрочем, если вы хотите собрать свой Хадуп самостоятельно, обратите внимание на проект Apache Bigtop, о котором мы рассказываем здесь. А о том, почему иногда версия сообщества предпочтительнее коммерческих продуктов, читайте в нашей новой статье.

Как работать со всеми этими и другими инфраструктурными решениями Hadoop для больших данных (развертывание, настройка, администрирование, обеспечение безопасности и использование кластера) узнайте в нашем учебном центре – практические курсы обучения пользователей, инженеров, администраторов и аналитиков Big Data в Москве:

Источники

  1. https://ru.wikipedia.org/wiki/Cloudera
  2. https://m.habr.com/ru/post/151062/
  3. https://mapr.com/blog/kafka-vs-mapr-streams-why-mapr/
  4. https://mapr.com/docs/61/MapROverview/c_security.html
  5. https://arenadata.tech/products/hadoop/

 

1 Comments

Комментарии закрыты.

Поиск по сайту