Что такое MapR CDP: архитектура, история, применение в Big Data

Содержание

Состав и архитектура MapR
История появления и развития
Применение MapRCDP

MapR Convergent Data Platform (MapRCDP) — дистрибутив Apache Hadoop с набором программ, библиотек и утилит Apache Software Foundation, а также средств собственной разработки американской компании MapR для больших данных (Big Data) и машинного обучения (Machine Learning) [1].

Существует три версии MapRCDP:

Community Edition (M3) — бесплатная версия сообщества;
Enterprise Edition (M5) — обеспечивает высокую доступность и защиту данных, включая мультиузловый NFS;
Enterprise Database Edition (M7) – включает данные структурированных таблиц изначально на уровне хранилища и предоставляет гибкую базу данных NoSQL.

MapRCDP может быть установлен на многих версиях Red Hat Enterprise Linux, CentOS, Ubuntu, Oracle Linux и SUSE.

Состав и архитектура MapR

Как и другие популярные дистрибутивы Hadoop (Cloudera, HortonWorks, ArenaData), кроме его основных модулей, MapR содержит дополнительные продукты для работы с большими данными и машинным обучением:

решения для интеграции, управления потоками и доступа к данными (Flume, Sqoop, Hue, HttpFs);
фреймворки для распределённой и потоковой обработки, а также брокеры сообщений (Spark, Storm, Kafka)
нереляционные СУБД и SQL-движки для Big Data аналитики (HBase, Hive, Impala, Spark SQL, Drill);
координаторы и планировщики задач (Zookeeper, Sahara, Oozie);
средства Machine Learning (Mahout, MLlib);
высокоуровневый язык программирования запросов к большим слабоструктурированным наборам данных (Pig);
продукт полнотекстового и фасетного поиска, динамической кластеризации, интеграции с базами данных и обработка документов со сложным форматом (Solr).

состав архитектура модули MapR Convergent Data Platform — Модули дистрибутива MapR Convergent Data Platform

Однако, в отличие от других дистрибутивов Hadoop (Cloudera, HortonWorks, ArenaData, HDInsight), вместо HDFS (Hadoop Distributed File System), MapR использует свою распределенную файловую систему – MapR-FS, а также свою базу данных – MapR-DB.

История появления и развития

2009 – год основания компании выходцами из корпорации Google, Lightspeed Venture Partners, Informatica, EMC Corporation and Veoh [1]

2011 – выпуск корпоративного дистрибутива Apache Hadoop с собственной распределенной файловой системой (MapR-FS) [2];

2012 — доступна поддержка операционных систем Windows и Mac OS [3].

2013 – выпуск MapR DB, NoSQL СУБД с поддержкой Apache HBase API и JSON документов [2];

2014 – выпуск Apache Drill, механизма SQL-запросов с низкой задержкой для широкомасштабных наборов данных, включая структурированные и полуструктурированные/вложенные данные, в т.ч. в форматах JSON и Parquet. Также Drill способен выполнять динамическое обнаружение схемы [4].

2015 – выпуск MapR Streams, масштабируемой системы передачи сообщений, поддерживающую Apache Kafka API и обладающую высокой производительностью и пропускной способностью [2].

2019 — корпорация Hewlett Packard Enterprise (HPE) приобрела компанию MapR, включая продукт MapRCDP и другую интеллектуальную собственность в областях искусственного интеллекта, машинного обучения и управления аналитическими данными [5].

Применение MapRCDP

Наиболее ярким примером использования MapRCDP в качестве основы для Big Data инфраструктуры является индийский проект Aadhaar по построению государственной системы идентификации. Его суть состоит в реализации биометрической базу данных населения, чтобы идентифицировать гражданина Индии на основе его отпечатков пальцев и сканирования радужной оболочки глаза. Проект запущен в 2009 году и работает на основе MapRCDP. Уже более 1 миллиарда жителей зарегистрированы в системе, что составляет 95% взрослого населения Индии. Каждый день в системе регистрируются 500000 новых пользователей. Более 100 миллионов авторизаций выполняется системой ежедневно. Среднее время отклика – 200 миллисекунд. Система использует зеркало MapRCDP для большей доступности и для предотвращения ошибок, поэтому даже перебои электричества или сети выведут ее из строя [2].

Mapr Apache Hadoop — компоненты дистрибутива Hadoop от компании MapR

Все о настройке, администрировании и использовании инфраструктуры Hadoop для больших данных и машинного обучения на наших компьютерных курсах обучения инженеров, администраторов и аналитиков Big Data и Machine Learning в Москве:

Источники

Содержание

Состав и архитектура MapR

История появления и развития

Применение MapRCDP

Related Entries