Все курсы

Apache AirFlow = планировщик процессов для ETL

Практический курс Data Pipeline на Apache Airflow и Apache Hadoop

Даты начала курса
13 декабря 2023
04 марта 2024
27 мая 2024
Стоимость обучения 66 000 руб. Регистрация
Длительность обучения 24 ак.часов
Код курса AIRF

3-дневный курс обучения по Airflow позволит вам получить и систематизировать знания по использованию этого фреймворка для разработки, планирования и мониторинга рабочих процессов с большими данными. Курс содержит расширенные сведения по установке распределенного кластера Apache Airflow, администрированию и интеграции этой платформы с другими технологиями Big Data в соответствии с лучшими практиками (best practices).

Что такое Apache Airflow и где это используется

Apache Airflow — это open-source набор библиотек для разработки, планирования и мониторинга рабочих процессов. Этот инструмент написан на языке программирования Python и позволяет создавать и настраивать цепочки задач как в визуальном режиме с помощью наглядного web-GUI, так и писать программный код на Python.

AirFlow принято называть ETL-средством для пакетов Big Data, он не является классической ETL-системой, а лишь помогает представить процесс извлечения-преобразования-загрузки данных в виде единого проекта на Python, чтобы удобно и эффективно управлять им.

На практике Apache Airflow используется в следующих случаях:

  • интеграция множества информационных систем и данных из различных источников (внутренние и внешние базы, файловые хранилища, облачные приложения и пр.);
  • загрузка информации в корпоративное озеро данных (Data Lake);
  • организация уникальных конвейеров доставки и обработки больших данных (data pipeline);
  • управление конфигурацией конвейеров данных как кодом в соответствии с DevOps-подходом;
  • автоматизация разработки, планирования и мониторинга batch-процессов обработки Data Flow.

Все эти и другие примеры прикладного использования Apache Airflow для управления batch-процессами обработки больших данных разбираются в рамках нашего практического курса.

 

 

Кому нужны курсы по Airflow

Наши курсы обучения по Airflow ориентированы на системных администраторов, инженеров данных (Data Engineer), архитекторов, DevOps-инженеров, разработчиков Hadoop и прочих Big Data систем.

Предварительный уровень подготовки:

  • Знание базовых команд Linux (опыт работы с командной строкой, файловой
    системой , POSIX, текстовыми редакторами vi, nano)
  • Базовый опыт программирования Python/bash
  • Начальный опыт в экосистеме Apache Hadoop
  • Средний опыт программирования SQL

Продолжительность: 3 дня, 24 академических часа
Соотношение теории к практике 50/50

 

Программа курса

1. Введение в AirFlow

  • Что такое Apache Airflow?
  • Почему Airflow?
  • История создания Airflow
  • Аналоги и конкуренты
  • Сравнение с конкурентами
  • Оркестрация
  • Где применяется?

LAB01_AIRFLOW workflow для ETL

2. Основные абстракции и компоненты

  • Верхнеуровневая архитектура
  • Программные компоненты
  • Абстракции: DAG
  • Абстракции: operator
  • Абстракции: operator
  • Абстракции: композиция операторов
  • Абстракции: Variable
  • Исполнение и dag run
  • Task States
  • Обзор WEB UI

LAB02_AIRFLOW Person Aggregate

3. Написание простых DAG

  • Разработка конвейеров данных
  • ETL
  • Data Pipelines (ELT) vs ETL Pipelines dataflow vs workflow
  • Pipeline и Airflow
  • Способы построения DAGов
  • Создание DAG (pipeline)
  • Объект: DAG
  • Объект: operator
  • Объект: PythonOperator
  • Композиция
  • Первый DAG: дизайн
  • Первый DAG: схема

LAB03 Написание DAG

4. Дополнительные возможности

  • Connections
  • Hooks
  • Templates
  • Macros
  • Sensors
  • Готовые сенсоры
  • Trigger Rules
  • Backfill & catchup
  • TaskGroup
  • Dynamic: XCOM
  • Dynamic: Dynamic Task Generation

REST API & CLI

5. APACHE SPARK

  • Что такое SPARK?
  • Как устроен SPARK?
  • Как работает SPARK?
  • Airflow + Spark
  • Airflow: unitTest

6. Настройка, установка Airflow. Немного про docker. Тесты

  • Airflow: Versions
  • Airflow: Локальная установка
  • Airflow: with Docker
  • Docker
  • Docker: основные особенности
  • Docker: преимущества
  • Docker: основные компоненты
  • Docker: основные компоненты
  • Airflow в Docker: как установить?

Программа курса «AIRF: Data Pipeline на Apache Airflow и Apache Hadoop»

Скачать программу курса «Data Pipeline на Apache Airflow и Apache Hadoop» в формате pdf

Отправить ссылку на:

Если у Вас остались вопросы Вы можете позвонить к нам по телефону +7 (495) 414-11-21  или заполнить форму обратной связи на сайте.
Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.

Поиск по сайту