A B C D E G H I K L M N O P R S T W Y Z Б В Е И К М О П Т Ц

Cloudera

Cloudera

    Cloudera CDH (Cloudera’s Distribution including Apache Hadoop) — дистрибутив Apache Hadoop с набором программ, библиотек и утилит, разработанных компанией Cloudera для больших данных (Big Data) и машинного обучения (Machine Learning), бесплатно распространяемый и коммерчески поддерживаемый для некоторых Linux-систем (Red Hat, CentOS, Ubuntu, SuSE SLES, Debian) [1].

    Состав и архитектура Клаудера CDH

    Помимо классического Hadoop от Apache Software Foundation, состоящего из 4-х основных модулей (HDFS, MapReduce, Yarn и Hadoop Common), CDH также содержит дополнительные решения Apache для работы с большими данными и машинным обучением:

    • инструменты для управления потоками данных (Flume, Sqoop);
    • фреймворки распределённой и потоковой обработки, а также брокеры сообщений (Spark, Kafka)
    • СУБД для Big Data аналитики (HBase, Hive, Impala);
    • высокоуровневый процедурный язык для выполнения запросов к большим слабоструктурированным наборам данных (Pig);
    • координаторы и планировщики задач (Zookeeper, Oozie);
    • средства Machine Learning (Mahout);
    • набор библиотек для запуска облачных сервисов (Whirr).
    Cloudera Enterprise, CDH, архитектура
    Компоненты Cloudera Enterprise

    Cloudera Enterprise Manager: чем CDH отличается от других дистрибутивов Apache Hadoop

    Уникальным отличием CDH от других дистрибутивов Big Data инфраструктуры на основе Apache Hadoop является Cloudera Manager — собственная специализированная подсистема управления кластером. Она включает сценарии развёртывания Hadoop-инфраструктуры и средства Apache Maven, что позволяет автоматизировать создание и модификацию локальных и облачных Hadoop-сред, отслеживать и анализировать эффективность выполнения заданий, настраивать оповещения о наступлении событий, связанных с эксплуатацией инфраструктуры распределённой обработки данных [1].

    Существует бесплатная версия Cloudera Manager, которая ограничена 50-ю узлами и не поддерживает мониторинг производительности, управление версиями конфигурации, сетевой протокол аутентификации Kerberos. Коммерческая версия Cloudera считается достаточно дорогой за счет высокой стоимости технического сопровождения (примерно $4 тысяч в год за узел кластера) [1], поэтому позволить ее себе могут только очень крупные компании.

    Платный вариант CDH называется Enterprise и включает Cloudera Manager — инструмент для развертывания, мониторинга и управления кластером, а также Cloudera Support – профессиональная поддержка от компании-разработчика по вопросам CDH и Cloudera Manager [2].

    Модули Cloudera Enterprise
    Модули Cloudera Enterprise

    Помимо техподдержки, CDH Enterprise 4.0 включает следующие полезные компоненты [3]:

    • Мастер настройки и управления многими кластерами из одной консоли;
    • цветовые теплокарты, которые показывают степень исправности кластеров Hadoop;
    • поддержка хранения баз метаданных в Oracle 11g, MySQL или PostgreSQL.

    История появления и развития

    CDH является продуктом американской компании Cloudera, поэтому далее мы приведем основные вехи ее становления [1]:

    2008 – год основания компании, приход основателей проекта Hadoop – Дуга Каттинга и Майкла Кафарелла;

    2009 – оказание услуг технических консультаций по Hadoop;

    2010 – разработка и поставка тиражируемого корпоративного программного обеспечения;

    2012 – выпуск CDH4 с 3-мя новыми продуктами – Impala (SQL-решение для Big Data), Hue (браузерный интерфейс управления Hadoop-кластером) и Search (полнотекстовый и фасетный поиск в средах HDFS и HBase);

    2014 – приобретение фирмы-разработчика технологии шифрования данных Gazzang;

    2017 – поглощение нью-йоркской фирмы-разработчикы алгоритмов машинного обучения Fast Forward Labs;

    2018 – выпуск CDH6 c поддержкой помехоустойчивого кодирования для HDFS, существенно снижающей физические размеры кластеров;

    2019 – слияние с фирмой-конкурентом Hortonworks, которая реализовывала свой коммерческий дистрибутив Hadoop.

    Клаудера, Big Data, CDH, Cloudera
    CDH — отличное инфраструктурное решение для проектов Big Data

    Как установить, настроить, обслуживать и успешно использовать Cloudera Hadoop для больших данных и машинного обучения узнайте на наших компьютерных курсах обучения различных категорий пользователей, от «чайников» до профессионалов – клаудера хадуп для инженеров, администраторов и аналитиков Big Data и Machine Learning в Москве:

    Источники

    1. https://ru.wikipedia.org/wiki/Cloudera
    2. https://m.habr.com/ru/post/151062/
    3. http://www.tadviser.ru/index.php/Продукт:Cloudera_Enterprise

     

    Related Entries