Hortonworks Data Platform (HDP) — дистрибутив Apache Hadoop с набором программ, библиотек и утилит Apache Software Foundation, адаптированных компанией Hortonworks для больших данных (Big Data) и машинного обучения (Machine Learning), бесплатно распространяемый и коммерчески поддерживаемый [1].
Помимо HDP, компания Hortonworks предлагает еще другие продукты для Big Data и Machine Learning, также основанные на проектах Apache Software Foundation [2]:
- Hortonworks DataFlow (HDF) –NiFi, Storm и Kafka;
- Сервисы Hortonworks DataPlane: Apache Atlas и Cloudbreak для интеграции со сторонними решениями.
Состав и архитектура Hortonworks
Кроме базового набора модулей Hadoop от Apache Software Foundation (HDFS, MapReduce, Yarn и Hadoop Common), HDP также содержит дополнительные решения Apache для работы с большими данными и машинным обучением:
- Flume, Sqoop, Falcon, NFS, WebHDFS для управления потоками данных;
- Kerberos, KNOX, Ranger для обеспечения безопасности;
- Ambari, Zookeeper, Oozie для планирования и координирования распределенной обработки задач;
- Hive, HCatalog, HBase, Acumlo – реляционные и NoSQL СУБД;
- Pig для программирования запросов к большим слабоструктурированным наборам данных;
- Stream для потоковой обработки данных;
- Solr для полнотекстового и фасетного поиска, динамической кластеризации, интеграции с базами данных и обработка документов со сложным форматом.
Аналогично подобному решению от компании Cloudera, HDP содержит Hortonworks Management Center (HMC) на основе Apache Ambari, который выполняет те же самые функции, что и Cloudera Manager, но при этом совершенно бесплатен [1].
История появления и развития HDP
HDP – это продукт американской компании HortonWorks, который появился и развивался следующим образом:
2011 – год основания компании инженерами из корпорации Yahoo! [2];
2014 – выпуск версии 2.1, которая включает новую технологию SQL-запросов Apache Hive 0.13, чтобы повысить скорость и масштаб интерактивных запросов к Hadoop (в петабайтах). Также HDP 2.1 содержит Apache Falcon для улучшения комплексного управления данными в рамках Hadoop, Apache Knox для защиты периметра, механизм обработки Apache Storm для улучшения потоковой обработки в реальном времени и поисковую технологию Apache Solr [3].
2016 – выпуск версии 2.5 с набором расширений от глубокого анализа данных и управления доступом к данным до безопасности и полного руководства данными: Apache Atlas для руководства данными, Apache Ranger для обеспечения безопасности на основе динамической классификации, Apache Ambari для упрощенной установки, защищенного конфигурирования, администрирования и сопровождения HDP [3].
2017 – интеграция с хранилищами данных IBM, решениями IBM Elastic Storage Server (ESS) и IBM Spectrum Scale, чтобы [3]:
- повысить эффективность хранения данных – в отличие от HDFS, создающей 3 копии каждой единицы информации, IBM ESS использует код избыточности, устраняя необходимость создания множества копий и увеличивая рентабельность хранения;
- расширить хранение информации на локальных системах с помощью безопасного и доступного облака;
- увеличить производительность системы за счет ESS.
2019 – слияние с фирмой-конкурентом Cloudera, которая реализует свой коммерческий дистрибутив хадуп — Cloudera CDH (Cloudera’s Distribution including Apache Hadoop). В СМИ сделка позиционируется как равное партнерство [4], однако стоимость и обороты Cloudera намного выше, чем у Hortonworks. Поэтому слияние скорее выглядит как поглощение: под контролем акционеров Cloudera 60% ценных бумаг обеих компаний, у акционеров Hortonworks — 40% [5].
Вся специфика настройки, администрирования и использования HortonWorks в проектах больших данных и машинного обучения на наших компьютерных курсах обучения инженеров, администраторов и аналитиков Big Data и Machine Learning в Москве:
- INTR: Основы Hadoop;
- HADM: Администрирование кластера Hadoop;
- HIVE: Hadoop SQL Hive администратор.
- DSEC: Безопасность озера данных Hadoop
- HDDE: Hadoop для инженеров данных
Источники
- https://m.habr.com/ru/post/151062/
- https://en.wikipedia.org/wiki/Hortonworks
- http://www.tadviser.ru/index.php/Продукт:Hortonworks_Data_Platform_(HDP)
- https://www.computerworld.ru/articles/Bolshe-chem-bolshie-dannye-Cloudera-i-Hortonworks-obedinyayutsya
- http://www.tadviser.ru/index.php/Компания:Hortonworks