Что такое Cloudera CDH: архитектура, история, использование

Содержание

Состав и архитектура Клаудера CDH
Cloudera Enterprise Manager: чем CDH отличается от других дистрибутивов Apache Hadoop
История появления и развития

Cloudera CDH (Cloudera’s Distribution including Apache Hadoop) — дистрибутив Apache Hadoop с набором программ, библиотек и утилит, разработанных компанией Cloudera для больших данных (Big Data) и машинного обучения (Machine Learning), бесплатно распространяемый и коммерчески поддерживаемый для некоторых Linux-систем (Red Hat, CentOS, Ubuntu, SuSE SLES, Debian) [1].

Состав и архитектура Клаудера CDH

Помимо классического Hadoop от Apache Software Foundation, состоящего из 4-х основных модулей (HDFS, MapReduce, Yarn и Hadoop Common), CDH также содержит дополнительные решения Apache для работы с большими данными и машинным обучением:

инструменты для управления потоками данных (Flume, Sqoop);
фреймворки распределённой и потоковой обработки, а также брокеры сообщений (Spark, Kafka)
СУБД для Big Data аналитики (HBase, Hive, Impala);
высокоуровневый процедурный язык для выполнения запросов к большим слабоструктурированным наборам данных (Pig);
координаторы и планировщики задач (Zookeeper, Oozie);
средства Machine Learning (Mahout);
набор библиотек для запуска облачных сервисов (Whirr).

Cloudera Enterprise, CDH, архитектура — Компоненты Cloudera Enterprise

Cloudera Enterprise Manager: чем CDH отличается от других дистрибутивов Apache Hadoop

Уникальным отличием CDH от других дистрибутивов Big Data инфраструктуры на основе Apache Hadoop является Cloudera Manager — собственная специализированная подсистема управления кластером. Она включает сценарии развёртывания Hadoop-инфраструктуры и средства Apache Maven, что позволяет автоматизировать создание и модификацию локальных и облачных Hadoop-сред, отслеживать и анализировать эффективность выполнения заданий, настраивать оповещения о наступлении событий, связанных с эксплуатацией инфраструктуры распределённой обработки данных [1].

Существует бесплатная версия Cloudera Manager, которая ограничена 50-ю узлами и не поддерживает мониторинг производительности, управление версиями конфигурации, сетевой протокол аутентификации Kerberos. Коммерческая версия Cloudera считается достаточно дорогой за счет высокой стоимости технического сопровождения (примерно $4 тысяч в год за узел кластера) [1], поэтому позволить ее себе могут только очень крупные компании.

Платный вариант CDH называется Enterprise и включает Cloudera Manager — инструмент для развертывания, мониторинга и управления кластером, а также Cloudera Support – профессиональная поддержка от компании-разработчика по вопросам CDH и Cloudera Manager [2].

Помимо техподдержки, CDH Enterprise 4.0 включает следующие полезные компоненты [3]:

Мастер настройки и управления многими кластерами из одной консоли;
цветовые теплокарты, которые показывают степень исправности кластеров Hadoop;
поддержка хранения баз метаданных в Oracle 11g, MySQL или PostgreSQL.

История появления и развития

CDH является продуктом американской компании Cloudera, поэтому далее мы приведем основные вехи ее становления [1]:

2008 – год основания компании, приход основателей проекта Hadoop – Дуга Каттинга и Майкла Кафарелла;

2009 – оказание услуг технических консультаций по Hadoop;

2010 – разработка и поставка тиражируемого корпоративного программного обеспечения;

2012 – выпуск CDH4 с 3-мя новыми продуктами – Impala (SQL-решение для Big Data), Hue (браузерный интерфейс управления Hadoop-кластером) и Search (полнотекстовый и фасетный поиск в средах HDFS и HBase);

2014 – приобретение фирмы-разработчика технологии шифрования данных Gazzang;

2017 – поглощение нью-йоркской фирмы-разработчикы алгоритмов машинного обучения Fast Forward Labs;

2018 – выпуск CDH6 c поддержкой помехоустойчивого кодирования для HDFS, существенно снижающей физические размеры кластеров;

2019 – слияние с фирмой-конкурентом Hortonworks, которая реализовывала свой коммерческий дистрибутив Hadoop.

Клаудера, Big Data, CDH, Cloudera — CDH — отличное инфраструктурное решение для проектов Big Data

Как установить, настроить, обслуживать и успешно использовать Cloudera Hadoop для больших данных и машинного обучения узнайте на наших компьютерных курсах обучения различных категорий пользователей, от «чайников» до профессионалов – клаудера хадуп для инженеров, администраторов и аналитиков Big Data и Machine Learning в Москве:

Источники

Содержание

Состав и архитектура Клаудера CDH

Cloudera Enterprise Manager: чем CDH отличается от других дистрибутивов Apache Hadoop

История появления и развития

Related Entries