Data Pipeline на Apache Airflow

6-дневный курс обучения Apache Airflow позволит вам получить и систематизировать знания по использованию мощного оркестратора рабочих процессов, который особенно полезен для управления сложными, многозадачными процессами, такими как ETL, data pipelines, ML-процессы и другие workflows. Его гибкость, масштабируемость и открытый исходный код делают его популярным выбором среди инженеров данных и разработчиков

Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
AIRF
02 июня 2025
72 000 руб. 24 ак.часов
Количество дней: 6
Дистанционный
Регистрация

О продукте

Airflow (Apache Airflow) — это открытая платформа для управления рабочими процессами и расписанием задач. Она была разработана компанией Airbnb и передана в Apache Software Foundation. Airflow позволяет создавать, управлять и визуализировать сложные цепочки задач (DAG — Directed Acyclic Graph), которые могут выполняться по расписанию или вручную.

Airflow используется для автоматизации и оркестрации сложных рабочих процессов в различных областях, таких как аналитика данных, обработка больших объемов данных, машинное обучение, ETL и интеграция данных. Он используется для загрузки данных из разных источников, вычислений, запуска моделей машинного обучения, генерации отчетов и других транзакционных и аналитических операций.

Благодаря настраиваемым конфигурациям и Python-скриптам Airflow очень гибкий и подходит для множества сценариев. Расширяемая архитектура фреймворка позволяет добавлять собственные операторы и подключать сторонние инструменты.

Сегодня Airflow очень широко используется в аналитике и инженерии данных, а также пользуется спросом у разработчиков.

На практике Apache Airflow используется в следующих случаях:

  • оркестрация задач в data pipeline;
  • интеграция множества информационных систем и данных из различных источников (внутренние и внешние базы, файловые хранилища, облачные приложения и пр.);
  • загрузка информации в корпоративное хранилище и озеро данных (Data Lake);
  • реализация и автоматизация ETL-процессов (Extract, Transform, Load) ;
  • организация уникальных конвейеров доставки и обработки больших данных (data pipeline);
  • управление конфигурацией конвейеров данных как кодом в соответствии с DevOps-подходом;
  • автоматизация разработки, планирования и мониторинга batch-процессов обработки Data Flow.

Аудитория

  • Инженеры данных (Data Engineer),
  • Архитекторы,
  • DevOps-инженеры и прочих специалистов Big Data систем.

Уровень подготовки

  • Знание базовых команд Linux (опыт работы с командной строкой, файловой
    системой, POSIX, текстовыми редакторами vi, nano)
  • Базовый опыт программирования Python/bash
  • Средний опыт программирования SQL

О курсе

Курс содержит расширенные сведения по возможностям, которые предоставляет Apache Airflow для оркестрации сложных процессов и интеграции этой платформы с другими технологиями Big Data. Вы изучите полезные приемы дата-инженерии и лучшие практики (best practices) отрасли. Много практических заданий позволит закрепить полученные знания прямо на занятиях: проектируйте и реализуйте собственные workflow при поддержке опытного преподавателя!

Примеры прикладного использования Apache Airflow для управления процессами обработки больших данных разбираются в рамках нашего практического курса.

Соотношение теории к практике 30/70

Программа курса «Data Pipeline на Apache Airflow»

1. Введение в Airflow

    • Что такое Airflow?
    • Почему Airflow?
    • История создания
    • Аналоги и конкуренты
    • Airflow vs Oozie
    • “Киты” Airflow
    • Настройка образа в YandexCloud

2. Базовый Airflow

    • Верхнеуровневая архитектура
    • Компоненты: подробнее
    • Executors
    • LocalExecutor
    • Схема учебного стенда
    • DAG
    • DAG: параметры
    • Operators
    • Operators: виды
    • WEB UI: обзор
    • Пайплайн по созданию DAG
    • Dag: context
    • Operator: основные параметры
    • Composition
    • EmptyOperator
    • BashOperator
    • Написание первого DAG
    • TaskFlowApi
    • PythonOperator

Практика #1

Написание дага с использованием PythonOperator

Практика #2

Применение Variables + PythonOperator + BashOperator

Практика #3

Connections. Применение стандартных операторов, понимание конфигурации Airflow, использование WebUI

Практика #4

Sensors. Применение стандартных операторов, использование WebUI

Практика #5

ExternalTaskSensor                          

3. Расширенный Airflow

    • Trigger Rules

Практика #6

  • Backfill & catchup
  • Templates
  • Macros
  • Применение PostgresOperator
  • Использование Hooks, XCOM, vs Variable, Dynamic Tasks

Практика #7

TaskGroup

Скачать программу курса «Data Pipeline на Apache Airflow» в формате pdf

Отправить ссылку на:

Что Вы получите

Окончив курс «Data Pipeline на Apache Airflow и Apache Hadoop» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите удостоверение о повышении квалификации установленного образца.

Кто проводит курс

Карташов Андрей
Самарский государственный университет путей сообщения, ЭТФ, АСОиИУ, (Самара, 2014)

Профессиональные компетенции:

  • Разработчик Python/Data Engineer/Scala
  • Сопровождение, интеграция данных с помощью Apache Hadoop (Hbase,Hdfs, Kafka, Spark, Hive)
  • Администрирование RHEL
  • Разработка на Python
  • Работа с мониторингом (Zabbix)
  • Data Engineer в ВымпелКом-ИТ
  • Старший аналитик/Ведущий инженер по разработке в Сбер, Самара

Отзывы наших клиентов о курсе

Оставить отзыв

Чтобы записаться на курс AIRF: Data Pipeline на Apache Airflow позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.