Все курсы

Курс Data pipeline на Apache AirFlow и Arenadata Hadoop

Курс Data pipeline на Apache AirFlow и Arenadata Hadoop

Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
ADH-AIR
по запросу
по запросу ак.часов
Количество дней: дней
Дистанционный
Регистрация

3-хдневный авторский практический курс по построению конвейеров обработки больших данных для аналитиков и инженеров данных, архитекторов и специалистов по настройке и сопровождению потоков данных (Data Flow) в организации и озерах данных под управлением Arenadata Hadoop и Apache AirFlow.

Что такое Apache Airflow, Arenadata Hadoop и где это используется

Apache Airflow — это open-source набор библиотек для разработки, планирования и мониторинга рабочих процессов. Этот инструмент написан на языке программирования Python и позволяет создавать и настраивать цепочки задач как в визуальном режиме с помощью наглядного web-GUI, так и писать программный код на Python.

Apache AirFlow принято называть ETL-средством для пакетов Big Data, но он не является ETL-системой, а лишь помогает оркестрировать процесс извлечения-преобразования-загрузки данных в виде единого проекта на Python (Workflow), чтобы удобно и эффективно управлять им.

На практике Apache Airflow используется в следующих случаях:

  • интеграция множества информационных систем и данных из различных источников (внутренние и внешние базы, файловые хранилища, облачные приложения и пр.);
  • загрузка информации в корпоративное озеро данных (Data Lake);
  • организация уникальных конвейеров доставки и обработки больших данных (data pipeline);
  • управление конфигурацией конвейеров данных как кодом в соответствии с DevOps-подходом;
  • автоматизация разработки, планирования и мониторинга batch-процессов обработки Data Flow.

Arenadata Hadoop (ADH) – это отечественный дистрибутив распределенной платформы хранения и обработки больших данных на базе Apache Hadoop, адаптированный для корпоративного использования и зарегистрированный в государственном реестре программ для ЭВМ. Он включает множество технологий Big Data для хранения и аналитики больших данных, в т.ч. Apache Spark, Livy и Zeppelin, которые и рассматриваются в настоящем курсе в связке с AirFlow. Apache Airflow также входит в дистрибутив Arenadata Hadoop версии 2. Благодаря комплексному составу и российскому происхождению, ADH отлично подходит для проектов цифровизации государственных и муниципальных предприятий, а также активно используется многими частными компаниями России и СНГ. 

В этом практико-ориентированном курсе мы фокусируемся на использовании Apache Airflow для построения конвейеров обработки больших данных в среде Arenadata Hadoop 2.1, а процесс разработки происходит в среде Apache Zeppelin

Кому нужны курсы по Airflow и Arenadata Hadoop

Наши курсы обучения по Apache Airflow и Arenadata Hadoop ориентированы на инженеров данных (Data Engineer), системных архитекторов, DevOps-инженеров, разработчиков Hadoop и прочих Big Data систем, которые хотят получить практические знания и навыки по разработке эффективных конвейеров обработки больших данных. В процессе курса вы сможете:

  • понять, что такое Apache Airflow;
  • освоить принципы работы с задачами, операторами и DAG’ами;
  • научиться разрабатывать конвейеры обработки данных;
  • интегрировать Apache Aiflow с Apache Spark с использованием Apache Livy.
Предварительный уровень подготовки:
  • Знание базовых команд Linux (опыт работы с командной строкой, файловой системой, POSIX, текстовыми редакторами vi, nano)
  • Начальный опыт программирования Python/bash
  • Опыт работы с Apache Hadoop или прослушанный курс: ADHI: Основы Arenadata Hadoop  или INTR: Основы Hadoop

 

Как устроено обучение Apache Airflow и Arenadata Hadoop

Продолжительность: 3 дня, 24 академических часа.

Соотношение теории к практике 40/60

дневный  курс обучения по Apache Airflow и Arenadata Hadoop позволит вам получить и систематизировать знания по использованию этих фреймворков для разработки эффективных конвейеров обработки больших данных. Курс содержит расширенные сведения по вопросам разработки на Apache Airflow и интеграции этой платформы с Apache Spark и Livy в соответствии с лучшими практиками (best practices).

Вы изучите необходимый теоретический минимум, чтобы понять основные концепции этого инструмента и узнаете способы эффективной интеграции Apache Airflow и Apache Spark. В результате вы сможете самостоятельно построить собственный конвейер обработки больших данных (data pipeline) с использованием инструментария, предоставляемого дистрибутивом Arenadata Hadoop. Преподаватель курса по Apache Airflow и Arenadata Hadoop подробно объяснит все тонкости установки, конфигурирования, мониторинга и прикладного использования этих Big Data систем, чтобы вы могли в дальнейшем успешно работать с ними.
На практике вы разработаете собственный конвейер обработки данных на связке Apache Airflow + Spark + Livy, максимально эффективно используя возможности параллельной обработки, предоставляемые кластером Arenadata Hadoop и фреймворком параллельной обработки больших данных Apache Spark

 

 

Программа курса «Построение эффективных конвейеров обработки данных с Apache Airflow и Arenadata Hadoop»

  1. Знакомство с Airflow
  • История появления, решаемые задачи, место в наборе инструментов по обработке данных
  • Основные объекты (DAG, оператор и task, сенсор, объединение компонентов в DAG)
  • Процесс исполнения (worker-ы и executor-ы, параллельное и последовательное исполнение)
  • Планирование и график исполнения DAG
  • Компоненты Airflow (scheduler, административный web интерфейс)
  • Алерты и логирование
  • Переменные и xcomm
  • Connection и работа с источниками данных
  • Конфигурация Airflow
  1. Разработка конвейеров обработки данных
  • Процесс создания DAG
  • Основные операторы
  • Создание (настройка) python и bash операторов
  • Создание собственных операторов и сенсоров
  • Использование connection
  • Hooks и практические примеры использования
  • xcomm и переменные: зачем нужны и что дают
  • Возможности макроязыка (Jinja)
  • Настройка расписания и его особенности
  1. Основы Hadoop
  • Проблематика «больших данных»
  • Основные компоненты Hadoop
  • Хранение и работа с данными в Hadoop
  • Дистрибутив Аренадата Hadoop
  • Apache Zeppelin и вопросы практического использования компонентов дистрибутива
  1. Знакомство с Apache Spark
  • Архитектура и компоненты фреймворка
  • Работа в Apache Zeppelin
  • Основные абстракции (Dataframe, RDD)
  • Работа с источниками данных и Spark SQL
  • Конвейерная обработка данных с использованием Apache Spark
  1. Основы Apache Livy
  • Архитектура Apache Livy
  • Предоставляемый REST API
  1. Интеграция Airflow с Apache Spark/Livy
  • Архитектура конвейера обработки данных
  • Пример реализации конвейера обработки данных на Аренадата Hadoop

Практические занятия:

  • Создание простых DAG
  • Настройка python и bash операторов
  • Разработка операторов и сенсоров
  • Взаимодействие с Apache Spark & Livy
Скачать программу курса "Data pipeline на Apache Airfow и Arenadata Hadoop"

Отправить ссылку на:

Если у Вас остались вопросы Вы можете позвонить к нам по телефону +7 (495) 414-11-21  или заполнить форму обратной связи на сайте.
Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.
Поиск по сайту