A B C D E G H I K L M N O P R S T W Y Z Б В Е И К М О П Т Ц

MapR

MapR

    MapR Convergent Data Platform (MapRCDP) — дистрибутив Apache Hadoop с набором программ, библиотек и утилит Apache Software Foundation, а также средств собственной разработки американской компании MapR для больших данных (Big Data) и машинного обучения (Machine Learning) [1].

    Существует три версии MapRCDP:

    1. Community Edition (M3) — бесплатная версия сообщества;
    2. Enterprise Edition (M5) — обеспечивает высокую доступность и защиту данных, включая мультиузловый NFS;
    3. Enterprise Database Edition (M7) – включает данные структурированных таблиц изначально на уровне хранилища и предоставляет гибкую базу данных NoSQL.

    MapRCDP может быть установлен на многих версиях Red Hat Enterprise Linux, CentOS, Ubuntu, Oracle Linux и SUSE. 

    Состав и архитектура MapR

    Как и другие популярные дистрибутивы Hadoop (Cloudera, HortonWorks, ArenaData), кроме его основных модулей, MapR содержит дополнительные продукты для работы с большими данными и машинным обучением:

    • решения для интеграции, управления потоками и доступа к данными (Flume, Sqoop, Hue, HttpFs);
    • фреймворки для распределённой и потоковой обработки, а также брокеры сообщений (Spark, Storm, Kafka)
    • нереляционные СУБД и SQL-движки для Big Data аналитики (HBase, Hive, Impala, Spark SQL, Drill);
    • координаторы и планировщики задач (Zookeeper, Sahara, Oozie);
    • средства Machine Learning (Mahout, MLlib);
    • высокоуровневый язык программирования запросов к большим слабоструктурированным наборам данных (Pig);
    • продукт полнотекстового и фасетного поиска, динамической кластеризации, интеграции с базами данных и обработка документов со сложным форматом (Solr).
    состав архитектура модули MapR Convergent Data Platform
    Модули дистрибутива MapR Convergent Data Platform

    Однако, в отличие от других дистрибутивов Hadoop (Cloudera, HortonWorks, ArenaData, HDInsight), вместо HDFS (Hadoop Distributed File System), MapR использует свою распределенную файловую систему – MapR-FS, а также свою базу данных – MapR-DB.

    История появления и развития

    2009 – год основания компании выходцами из корпорации Google, Lightspeed Venture Partners, Informatica, EMC Corporation and Veoh [1]

    2011 – выпуск корпоративного дистрибутива Apache Hadoop с собственной распределенной файловой системой (MapR-FS) [2];

    2012 — доступна поддержка операционных систем Windows и Mac OS [3].

    2013 – выпуск MapR DB, NoSQL СУБД с поддержкой Apache HBase API и JSON документов [2];

    2014 – выпуск Apache Drill, механизма SQL-запросов с низкой задержкой для широкомасштабных наборов данных, включая структурированные и полуструктурированные/вложенные данные, в т.ч.  в форматах JSON и Parquet. Также Drill способен выполнять динамическое обнаружение схемы [4].

    2015 – выпуск MapR Streams, масштабируемой системы передачи сообщений, поддерживающую Apache Kafka API и обладающую высокой производительностью и пропускной способностью [2]

    2019 — корпорация Hewlett Packard Enterprise (HPE) приобрела компанию MapR, включая продукт MapRCDP и другую интеллектуальную собственность в областях искусственного интеллекта, машинного обучения и управления аналитическими данными [5].

    Применение MapRCDP

    Наиболее ярким примером использования MapRCDP в качестве основы для Big Data инфраструктуры является индийский проект Aadhaar по построению государственной системы идентификации. Его суть состоит в реализации биометрической базу данных населения, чтобы идентифицировать гражданина Индии на основе его отпечатков пальцев и сканирования радужной оболочки глаза. Проект запущен в 2009 году и работает на основе MapRCDP. Уже более 1 миллиарда жителей зарегистрированы в системе, что составляет 95% взрослого населения Индии. Каждый день в системе регистрируются 500000 новых пользователей. Более 100 миллионов авторизаций выполняется системой ежедневно. Среднее время отклика – 200 миллисекунд. Система использует зеркало MapRCDP для большей доступности и для предотвращения ошибок, поэтому даже перебои электричества или сети выведут ее из строя [2]

    Mapr Apache Hadoop
    компоненты дистрибутива Hadoop от компании MapR

    Все о настройке, администрировании и использовании инфраструктуры Hadoop для больших данных и машинного обучения на наших компьютерных курсах обучения инженеров, администраторов и аналитиков Big Data и Machine Learning в Москве:

    Источники

    1. https://en.wikipedia.org/wiki/MapR
    2. https://habr.com/ru/post/313390/
    3. https://www.itweek.ru/idea/article/detail.php?ID=144155
    4. http://qaru.site/questions/tagged/apache-drill
    5. https://www.hpe.com/us/en/newsroom/press-release/2019/08/hpe-advances-its-intelligent-data-platform-with-acquisition-of-mapr-business-assets/

    Related Entries