Интеграция Hadoop и NoSQL

7-дневный практический курс для инженеров данных, архитекторов Data Lake и Data Warehouse, а также разработчиков Big Data решений.

Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
NOSQL
по запросу
по запросу ак.часов
Количество дней: дней
Дистанционный
Регистрация

О продукте:

NoSQL (Not Only SQL) – это подход к реализации масштабируемого хранилища с гибкой моделью данных, когда проблемы масштабируемости (scalability) и доступности (availability), важные для Big Data решений, решаются за счёт атомарности (atomicity) и согласованности данных (consistency). Выделяют 4 типа NoSQL-СУБД:

  1. Ключ-значение (Key-value) для хранения изображений, создания специализированных файловых систем и кэширования объектов в масштабируемых Big Data системах, таких как игровые и рекламные приложения, проекты интернета вещей (IoT/IIoT). Примеры: Oracle NoSQL Database, Berkeley DB, MemcacheDB, Redis, Riak, Amazon DynamoDB.
  2. Документно-ориентированное хранилище для каталогов, пользовательские профилей и CMS-систем, где каждый уникальный документ меняется со временем.  Применяется в издательском деле и документальном поиске, например, CouchDB, Couchbase, MongoDB, eXist, Berkeley DB XML.
  3. Колоночное хранилище (Column Family), где значения хранятся в столбцах (колонках), представленных в отдельных файлах. Это позволяет хранить большое количество атрибутов в сжатом виде, что ускоряет выполнение запросов, поиск и агрегацию данных. Такие СУБД отлично подходят для обработки счётчиков и событий, связанных со временем, например, в системах биржевой аналитики, IoT/IIoT-приложениях, CMS-системах и пр. Примеры Google Big Table, Apache HBase, Cassandra, ScyllaDB, Apache Accumulo и
  4. Графовое хранилище – это сетевая база, которая использует узлы и рёбра для отображения и хранения данных. Эта модель оптимальна для задач обхода графа без дополнительных вычислений, как Join-операции в SQL. Эти СУБД поддерживают ACID-требования и применяются для анализа связей: соцсети, выявление мошенничества, маршруты общественного транспорта, дорожные карты, топологии. Примеры: InfoGrid, Neo4j, Amazon Neptune, OrientDB, AllegroGraph, Blazegraph, InfiniteGraph, FlockDB, Titan, ArangoDB.

Зачем интегрировать Hadoop с NoSQL-СУБД и реляционными базами данных

Apache Hadoop — это основная технология хранения и обработки больших данных, open-source набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ на кластерах из сотен и тысяч узлов. Сегодня вокруг Apache Hadoop существует целая экосистема связанных проектов и технологий, которые используются для интеллектуального анализа больших данных (Data Mining), в том числе с помощью машинного обучения (Machine Learning).

На практике Apache Hadoop используется во множестве компаний по всему миру для:

  • хранения множества разноформатной информации в рамках озера данных (Data Lake);
  • сортировка огромных объемов данных и разбор содержимого чрезвычайно больших файлов;
  • аналитики поисковых запросов и пользовательских логов в высоконагруженных веб-сайтах и корпоративных информационных системах;
  • обработки графических данных.

NoSQL-СУБД Apache HBase использует файловую систему Hadoop (HDFS) для хранения данных, обеспечивая высокую скорость за счет кэширования в памяти и обработки данных на стороне сервера через фильтры и сопроцессоры. Поэтому HBase востребована в системах аналитики больших данных в реальном времени (OLTP) и табличных пользовательских приложений. Поддержка внешних SQL-решений, таких как Apache Phoenix, Drill, Hive и Cloudera Impala, позволяет работать с данными в HBase, как с реляционными таблицами. Такие SQL-on-Hadoop инструменты существенно снижают порог входа в технологию, облегчая ежедневную работу аналитиков данных и Data Scientist’ов.

Аудитория:

Наши авторские курсы по интеграции NoSQL и Hadoop ориентированы на инженеров данных, архитекторов Data Lake и КХД, а также разработчиков Big Data систем, которые хотят получить следующие знания и навыки:

  • понять, как организовать комплексную Big Data инфраструктуру на базе озера данных Apache Hadoop, интегрированного с корпоративными хранилищами данных (КХД), OLAP и OLTP системами;
  • разобраться с архитектурой КХД и Data Lake, принципами их наполнения, средствами организации ELT/ETL-процессов;
  • освоить инструменты создания конвейеров данных (data pipelines), включая потоковый (streaming) и пакетный (batch) режимы с применением Apache Sqoop и Spark;
  • научиться формировать запросы к большим данным с помощью средств SQL-on-Hadoop (Apache Hive, Cloudera Impala, Apache Phoenix);
  • приобрести опыт работы с MPP-СУБД Greenplum и ArenadataDB для эффективного охранения и быстрой аналитики больших данных, а также с OLAP-системами Yandex ClickHouse и Arenadata Quick Marts;
  • узнать лучшие практики использования всех этих инструментов для решения прикладных бизнес-задач.

Уровень подготовки:

  • Знание базовых команд Linux (опыт работы с командной строкой, файловой системой, POSIX, текстовыми редакторами vi, nano)
  • Знание SQL

О курсе:

Продолжительность: 7 дней, 40 академических часа

Соотношение теории к практике 40/60

Практическое обучение инженеров данных и архитекторов Big Data в «Школе Больших Данных» включает теоретический минимум, необходимый для прикладной работы и эффективному использованию Apache HBase, Spark, Sqoop, Hive, Impala, Greenplum, ArenadataDB, Yandex ClickHouse и Arenadata Quick Marts. Подробно рассматриваются вопросы проектирования озер и корпоративных хранилищ данных, схемы HBase, Greenplum, ArenadataDB, Yandex ClickHouse и Arenadata Quick Marts. Подробно рассматриваются вопросы проектирования озер и корпоративных хранилищ данных, импорта и экспорта информации из реляционных источников, преобразование данных в процессах ETL/ELT с использованием batch-процессинга Hive и конвейеров на Apache Spark.

Курс содержит описание механизма SQL-доступа к данным в OLAP и OLTP-решениях посредством Cloudera Impala и Apache HBase/Phoenix. MPP-системы разбираются на примере аналитической СУБД Greenplum/ArenadataDB, в т.ч. интеграцию с Hadoop-кластерами по протоколу параллельного обмена данных со сторонними системами PXF (Platform eXtension Framework). Также курс включает знакомство с кластерной колоночной СУБД Arenadata Quick Marts (Yandex СlickHouse), которая позволяет в режиме реального времени генерировать аналитические отчёты на больших объемах данных.

На практике вы самостоятельно построите собственный data pipeline в рамках ETL/ELT-процессов, поработаете с SQL-запросами к Hadoop, спроектируете схему организации NoSQL-таблиц в озере и корпоративном хранилище данных.

Программа курса «Интеграция Hadoop и NoSQL»

1. Введение в NoSQL

    • Базовые принципы и компоненты Hadoop
    • Основные концепции и виды NoSQL решений
    • Архитектура Data Lake
    • Принципы формирование pipelines и Data Lake

2. Организация импорта данных

    • Apache Sqoop – основные принципы:
      • простой импорт и экспорт данных из реляционных источников
      • сценарии применения
    • Apache Spark – обзор возможностей:
      • импорт и экспорт данных из реляционных источников и файлов
      • нагруженный импорт данных с преобразованием для вложенных, JSON, XML форматов
    • Особенности использования форматов хранения файлов AVRO, ORC, Parquet.

3. Организация Hadoop SQL интерфейса доступа к данным на файловой системе HDFS

    • Apache Hive – интерфейс доступа для batch-процессинга данных на HDFS
      • Основные компоненты системы
      • Batch процессинг с использованием движков MapReduce/Tez, LLAP, Spark — особенности
      • Тюнинг JOIN операций
      • Сценарии использования
    • Cloudera Impala – OLAP аналитика данных в MPP Hadoop
      • Особенности решения
      • Интеграция с Hive и HBase
      • Форматы файлов для Cloudera Impala (Parquet, ORC)
      • Особенности JOIN-операций
      • Сценарии использования
    • Spark SQL
      • Возможности фреймворка и предоставляемые API
      • Сложные преобразования и агрегация с использованием Spark SQL
      • Интеграция с Hive
      • Сценарии использования

4. NoSQL в Hadoop

    • Спектр возможностей NoSQL в экосистеме Hadoop
    • Apache HBase – для real-time доступа на чтение и запись
      • Архитектура решения, концепция CRUD,
      • Проектирование базы данных, выбор column family
      • Сценарии использования HBase
      • Использование Apache Phoenix для HBase

5. Организация хранилища MPP NoSQL на примере Greenplum/ArenadataDB

    • Концепция MPP и её реализация в Greenplum/ArenadataDB.
      • Загрузка и распределение данных. Сегментирование таблиц. Индексация
      • Внешние таблицы, реплицированные таблицы, consistent hashing
      • Оптимизация запросов, JOIN
      • Best practices
      • Сценарии использования

6. OLAP на колоночных базах данных на примере Yandex ClickHouse и Arenadata Quick Marts

    • Особенности реализации
    • Шардирование, партиционирование, индексация
    • Сценарии использования
Скачать программу курса«Интеграция Hadoop и NoSQL» в формате pdf

Отправить ссылку на:

Что Вы получите:

Успешно окончив курс «Интеграция Hadoop и NoSQL» в нашем лицензированном учебном центре, вы получите удостоверение установленного образца, которое может засчитываться в качестве свидетельства о повышении квалификации.

Чтобы записаться на курс NOSQL: Интеграция Hadoop и NoSQL позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.
Поиск по сайту