Hadoop для инженеров данных

5-дневный практический тренинг по batch/streaming обработке больших данных средствами экосистемы Apache Hadoop: Airflow, Spark, Flume, Sqoop, Hive, а также Kafka для организации озера данных (Data Lake) на кластере Hadoop версии 3 и процессов ETL/ELT.

Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
HDDE
по запросу
120 000 руб. 40 ак.часов
Количество дней: 5
Дистанционный
Регистрация

О продукте:

Data Lake (озеро данных) — это метод хранения данных в натуральном (сыром, «RAW») виде: в разных схемах и форматах, от blob-объектов до различных файлов. Корпоративное озеро данных позволяет предприятию иметь логически определенное, единое хранилище всех данных в организации (enterprise data), чтобы использовать их для построения аналитических отчетов, моделей машинного обучения и других прикладных задач.

Обычно Data Lake включает структурированную информацию из реляционных баз данных (строки и колонки), полуструктурированные файлы (CSV, логи, XML, JSON, AVRO, Parquet, ORC), неструктурированные (почтовые сообщения, документы, pdf) и даже бинарные данные (видео, аудио, графические изображения). Помимо необработанных исходных данных (RAW data), озеро данных также может содержать и предварительно обработанную (transformed) информацию.

За эффективную организацию процессов загрузки информации в озеро или корпоративное хранилище данных (КХД) и выгрузки оттуда нужных сведений отвечают инженеры данных (Data Engineer). Сегодня в большинстве случаев Data Lake строится с помощью компонентов экосистемы Apache Hadoop и сопутствующих технологий Big Data: Spark, Pig, Sqoop, Hive, Flume, Flink, Airflow, NiFi, Kafka, Cloudera Impala. Как успешно использовать все эти инструменты для создания уникального конвейера сбора и обработки данных (pipeline), вы узнаете на нашем 5-дневном обучающем курсе-тренинге «Hadoop для инженеров данных».

Аудитория:

Курс Hadoop для инженеров данных ориентирован на специалистов по работе с большими данными, которые отвечают за настройку и сопровождение ввода данных в Data Lake и хотят получить теоретические знания и практические навыки по подготовке массивов Big Data и специфике процессов ETL/ELT в кластерах Hadoop. Также на нашем курсе Data Engineer освоит тонкости организации pipelines в Hadoop, Batch, stream и real-time процессинга больших данных с использованием компонентов экосистемы Хадуп.

Уровень подготовки:

  • Знание базовых команд Linux (опыт работы с командной строкой, файловой системой, POSIX, текстовыми редакторами vi, nano)
  • Начальный опыт работы с SQL

О курсе:

Продолжительность: 5 дней, 40 академических часов

Соотношение теории к практике 40/60

Данный курс включает теоретические знания и практические навыки планирования, формирования и сопровождения Hadoop Data Lake (озеро данных). Рассматриваются примеры интеграции, настройки и обслуживания конвейеров данных (pipelines) из традиционных источников: корпоративные базы данных, web-логи, файловые системы, интернет, транзакции и пр.  для последующего анализа больших данных.

На практике вы будете использовать выделенный кластер Hadoop в облаке Amazon Web Services (AWS) на базе дистрибутива Cloudera Data Platform (CDP) Private Cloud (замена дистрибутива HortonWorks) или Arenadata Hadoop. Создадите свой data pipeline с помощью Apache Spark, Airflow, Sqoop, Hive, Flume, NiFi, Kafka. Изучите особенности импорта/экспорта данных и построения распределенных Big Data систем потоковой обработки событий (Event Processing System) на базе Apache Kafka.

Программа курса «Hadoop для инженеров данных»

1. Основные концепции Hadoop и Data Lake

    • Основы Hadoop. Основные компоненты, парадигма, история и тенденции развития
    • Современные хранилища данных, Data Lake, его архитектура

2. Map Reduce и Yarn

    • Ведение в MapReduce. Этапы выполнения задачи в MapReduce и подход к программированию
    • Архитектура и задачи YARN. Управление ресурсами и очередями задач, FIFO/Capacity/Fair scheduler

3. Хранение данных в HDFS

    • Архитектура HDFS. Операции чтения и записи, блоки HDFS
    • Основные команды работы с HDFS
    • Дополнительные возможности и особенности HDFS

4. Импорт/экспорт данных в кластер Hadoop — формирование Data Lake

    • Импорт и обработка данных в кластере Hadoop
    • Интеграция с реляционными базами данных
    • Структура хранения данных в таблицах
    • Введение в Sqoop: импорт и экспорт данных из реляционных источников

5. Apache Hive

    • Введение в Hive и соответствие DDL операций структуре хранения
    • Работа с внешними и внутренними таблицами Hive
    • Партиционирование данных
    • Hive LLAP, Hive on Spark/Tez
    • Хранение данных в HDFS: сжатие и форматы файлов (AVRO, ORC, Parquet)

6. Основы Apache Spark

    • Архитектура и состав Apache Spark
    • Основные абстракции (Dataframe, RDD)
    • Spark SQL
    • Ввод и вывод данных в Apache Spark

7. Введение в Cloudera Impala

    • Введение в Cloudera Impala: особенности архитектура и компоненты
    • Взаимодействие Spark, Hive

8. Введение в Apache HBase

    • Архитектура и состав Apache HBase
    • Основные абстракции и язык запросов

9. Введение в Apache Kafka

    • Архитектура и состав Apache Kafka
    • Партиции, топики, управление смещением
    • Основные API

10. Введение в Apache Airflow

    • Архитектура и состав Apache Airflow
    • Основные абстракции (DAG, оператор, сенсор)
    • Основные операторы (Bash Operator, Python Operator)

Cписок практических занятий:

  • Выполнение и анализ работы Map Reduce приложений
  • Особенности запуска задач и использование командной строки YARN
  • Работа с HDFS (интерфейс командной строки)
  • Импорт/экспорт данных с помощью Apache Sqoop
  • Использование Apache Hive для анализа данных
  • Обработка данных с использованием Structured API Apache Spark
  • Сравнение производительности SQL движков (Hive, Spark, Impala)
  • Работа в командной строке с Apache HBase
  • Использование Consumer и Producer API в Apache Kafka
  • Построение Workflow с использованием Apache Airflow
Скачать программу курса «Hadoop для инженеров данных» в формате pdf

Отправить ссылку на:

Что Вы получите:

Окончив курс «Hadoop для инженеров данных» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите удостоверение установленного образца, что свидетельствует о повышении квалификации. По умолчанию документ выдается в электронном виде (pdf-файл), по желанию делаем бумажный вариант без дополнительной оплаты.

Кто проводит курс

Темирханов Зелимхан
Российская академия народного хозяйства и государственной службы при президенте РФ, ЭМИТ, цифровая экономика
Профессиональные компетенции:
  • Организация ETL-конвейеров (Apache Airflow, Spark)
  • Старший разработчик (Axenix ex. Accenture) дата-инженер
  • Сопровождение, интеграция данных с помощью Apache Hadoop (Hdfs, Kafka, Spark, Hive)

Отзывы наших клиентов о курсе

Оставить отзыв

Чтобы записаться на курс HDDE: Hadoop для инженеров данных позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.
Поиск по сайту