Data Pipeline на Apache Airflow
6-дневный курс обучения Apache Airflow позволит вам получить и систематизировать знания по использованию мощного оркестратора рабочих процессов, который особенно полезен для управления сложными, многозадачными процессами, такими как ETL, data pipelines, ML-процессы и другие workflows. Его гибкость, масштабируемость и открытый исходный код делают его популярным выбором среди инженеров данных и разработчиков
Код курса | Даты начала курса | Стоимость обучения | Длительность обучения | Формат обучения |
---|---|---|---|---|
AIRF | 02 июня 2025 |
72 000 руб. | 24 ак.часов Количество дней: 6 |
Дистанционный |
Регистрация |

О продукте
Airflow (Apache Airflow) — это открытая платформа для управления рабочими процессами и расписанием задач. Она была разработана компанией Airbnb и передана в Apache Software Foundation. Airflow позволяет создавать, управлять и визуализировать сложные цепочки задач (DAG — Directed Acyclic Graph), которые могут выполняться по расписанию или вручную.
Airflow используется для автоматизации и оркестрации сложных рабочих процессов в различных областях, таких как аналитика данных, обработка больших объемов данных, машинное обучение, ETL и интеграция данных. Он используется для загрузки данных из разных источников, вычислений, запуска моделей машинного обучения, генерации отчетов и других транзакционных и аналитических операций.
Благодаря настраиваемым конфигурациям и Python-скриптам Airflow очень гибкий и подходит для множества сценариев. Расширяемая архитектура фреймворка позволяет добавлять собственные операторы и подключать сторонние инструменты.
Сегодня Airflow очень широко используется в аналитике и инженерии данных, а также пользуется спросом у разработчиков.
На практике Apache Airflow используется в следующих случаях:
- оркестрация задач в data pipeline;
- интеграция множества информационных систем и данных из различных источников (внутренние и внешние базы, файловые хранилища, облачные приложения и пр.);
- загрузка информации в корпоративное хранилище и озеро данных (Data Lake);
- реализация и автоматизация ETL-процессов (Extract, Transform, Load) ;
- организация уникальных конвейеров доставки и обработки больших данных (data pipeline);
- управление конфигурацией конвейеров данных как кодом в соответствии с DevOps-подходом;
- автоматизация разработки, планирования и мониторинга batch-процессов обработки Data Flow.
Аудитория
- Инженеры данных (Data Engineer),
- Архитекторы,
- DevOps-инженеры и прочих специалистов Big Data систем.
Уровень подготовки
- Знание базовых команд Linux (опыт работы с командной строкой, файловой
системой, POSIX, текстовыми редакторами vi, nano) - Базовый опыт программирования Python/bash
- Средний опыт программирования SQL
О курсе
Курс содержит расширенные сведения по возможностям, которые предоставляет Apache Airflow для оркестрации сложных процессов и интеграции этой платформы с другими технологиями Big Data. Вы изучите полезные приемы дата-инженерии и лучшие практики (best practices) отрасли. Много практических заданий позволит закрепить полученные знания прямо на занятиях: проектируйте и реализуйте собственные workflow при поддержке опытного преподавателя!
Примеры прикладного использования Apache Airflow для управления процессами обработки больших данных разбираются в рамках нашего практического курса.
Соотношение теории к практике 30/70
Программа курса «Data Pipeline на Apache Airflow»
1. Введение в Airflow
-
- Что такое Airflow?
- Почему Airflow?
- История создания
- Аналоги и конкуренты
- Airflow vs Oozie
- “Киты” Airflow
- Настройка образа в YandexCloud
2. Базовый Airflow
-
- Верхнеуровневая архитектура
- Компоненты: подробнее
- Executors
- LocalExecutor
- Схема учебного стенда
- DAG
- DAG: параметры
- Operators
- Operators: виды
- WEB UI: обзор
- Пайплайн по созданию DAG
- Dag: context
- Operator: основные параметры
- Composition
- EmptyOperator
- BashOperator
- Написание первого DAG
- TaskFlowApi
- PythonOperator
Практика #1
Написание дага с использованием PythonOperator
Практика #2
Применение Variables + PythonOperator + BashOperator
Практика #3
Connections. Применение стандартных операторов, понимание конфигурации Airflow, использование WebUI
Практика #4
Sensors. Применение стандартных операторов, использование WebUI
Практика #5
ExternalTaskSensor
3. Расширенный Airflow
-
- Trigger Rules
Практика #6
- Backfill & catchup
- Templates
- Macros
- Применение PostgresOperator
- Использование Hooks, XCOM, vs Variable, Dynamic Tasks
Практика #7
TaskGroup
Отправить ссылку на:
Что Вы получите
Окончив курс «Data Pipeline на Apache Airflow и Apache Hadoop» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите удостоверение о повышении квалификации установленного образца.

Кто проводит курс
Профессиональные компетенции:
- Разработчик Python/Data Engineer/Scala
- Сопровождение, интеграция данных с помощью Apache Hadoop (Hbase,Hdfs, Kafka, Spark, Hive)
- Администрирование RHEL
- Разработка на Python
- Работа с мониторингом (Zabbix)
- Data Engineer в ВымпелКом-ИТ
- Старший аналитик/Ведущий инженер по разработке в Сбер, Самара
Отзывы наших клиентов о курсе
Чтобы записаться на курс AIRF: Data Pipeline на Apache Airflow позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.