Data Pipeline на Apache Airflow
3-дневный курс обучения по Airflow позволит вам получить и систематизировать знания по использованию самого популярного фреймворка для разработки, планирования и мониторинга пакетных рабочих процессов с большими данными. Курс содержит расширенные сведения по возможностям, которые предоставляет Apache Airflow для оркестрации сложных процессов и интеграции этой платформы с другими технологиями Big Data. Вы изучите полезные приемы дата-инженерии и лучшие практики (best practices) отрасли. Много практических заданий позволит закрепить полученные знания прямо на занятиях: проектируйте и реализуйте собственные workflow при поддержке опытного преподавателя!
Код курса | Даты начала курса | Стоимость обучения | Длительность обучения | Формат обучения |
---|---|---|---|---|
AIRF | 27 ноября 2024 19 марта 2025 |
72 000 руб. | 24 ак.часов Количество дней: 3 |
Дистанционный |
Регистрация |
О продукте:
Airflow (Apache Airflow) — это открытая платформа для управления рабочими процессами и расписанием задач. Он позволяет создавать, планировать, запуска и отслеживать выполнение пакетных рабочих процессов (workflow). Эти рабочие процессы обработки данных обычно включают несколько задач и выполняются в заданном дата-инженером порядке.
Airflow используется для автоматизации и оркестрации сложных рабочих процессов в различных областях, таких как аналитика данных, обработка больших объемов данных, машинное обучение, ETL и интеграция данных. Он используется для загрузки данных из разных источников, вычислений, запуска моделей машинного обучения, генерации отчетов и других транзакционных и аналитических операций.
Благодаря настраиваемым конфигурациям и Python-скриптам Airflow очень гибкий и подходит для множества сценариев. Расширяемая архитектура фреймворка позволяет добавлять собственные операторы и подключать сторонние инструменты.
Сегодня Airflow очень широко используется в аналитике и инженерии данных, а также пользуется спросом у разработчиков.
Примеры прикладного использования Apache Airflow для управления процессами обработки больших данных разбираются в рамках нашего практического курса.
На практике Apache Airflow используется в следующих случаях:
- интеграция множества информационных систем и данных из различных источников (внутренние и внешние базы, файловые хранилища, облачные приложения и пр.);
- загрузка информации в корпоративное хранилище и озеро данных (Data Lake);
- реализация ETL-процессов;
- организация уникальных конвейеров доставки и обработки больших данных (data pipeline);
- управление конфигурацией конвейеров данных как кодом в соответствии с DevOps-подходом;
- автоматизация разработки, планирования и мониторинга batch-процессов обработки Data Flow.
Аудитория:
Наши курсы обучения по Airflow ориентированы на инженеров данных (Data Engineer), архитекторов, DevOps-инженеров и прочих Big Data систем.
Уровень подготовки:
- Знание базовых команд Linux (опыт работы с командной строкой, файловой
системой, POSIX, текстовыми редакторами vi, nano) - Базовый опыт программирования Python/bash
- Начальный опыт в экосистеме Apache Hadoop
- Средний опыт программирования SQL
Продолжительность: 3 дня, 24 академических часа
Соотношение теории к практике 50/50
Программа курса «Data Pipeline на Apache Airflow»
1. Введение в Airflow
-
- Что такое Airflow?
- Почему Airflow?
- История создания
- Аналоги и конкуренты
- Airflow vs Oozie
- “Киты” Airflow
- Настройка образа в YandexCloud
2. Базовый Airflow
-
- Верхнеуровневая архитектура
- Компоненты: подробнее
- Executors
- LocalExecutor
- Схема учебного стенда
- DAG
- DAG: параметры
- Operators
- Operators: виды
- WEB UI: обзор
- Пайплайн по созданию DAG
- Dag: context
- Operator: основные параметры
- Composition
- EmptyOperator
- BashOperator
- Написание первого DAG
- TaskFlowApi
- PythonOperator
Практика #1
- Запуск дага с ручной конфигурацией
Практика #2
- Variables
Практика #3
Практика #4
- Connections
- Sensors
Практика #5
- ExternalTaskSensor
3. Расширенный Airflow
-
- Trigger Rules
Практика #6
- Backfill & catchup
- Templates
- Macros
- PostgresOperator
- Hooks
Практика #7
- TaskGroup
- XCOM
- Dynamic Tasks
- XCOM vs Variable
Практика #8
Отправить ссылку на:
Что Вы получите:
Окончив курс «Data Pipeline на Apache Airflow и Apache Hadoop» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите удостоверение установленного образца, которое может засчитываться в качестве свидетельства о повышении квалификации.
Кто проводит курс
Профессиональные компетенции:
- Разработчик Python/Data Engineer/Scala
- Сопровождение, интеграция данных с помощью Apache Hadoop (Hbase,Hdfs, Kafka, Spark, Hive)
- Администрирование RHEL
- Разработка на Python
- Работа с мониторингом (Zabbix)
- Data Engineer в ВымпелКом-ИТ
- Старший аналитик/Ведущий инженер по разработке в Сбер, Самара
Отзывы наших клиентов о курсе
Чтобы записаться на курс AIRF: Data Pipeline на Apache Airflow позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.