AIRFLOW с использованием Yandex Managed Service for Apache Airflow™
3-хдневный курс обучения по Airflow позволит вам получить и систематизировать знания по использованию этого фреймворка для разработки, планирования и мониторинга рабочих процессов с большими данными. Курс содержит расширенные сведения по установке распределенного кластера Apache Airflow, администрированию и интеграции этой платформы с другими технологиями Big Data в соответствии с лучшими практиками (best practices).
Код курса | Даты начала курса | Стоимость обучения | Длительность обучения | Формат обучения |
---|---|---|---|---|
YARF | 02 апреля 2025 02 июля 2025 |
72 000 руб. | 24 ак.часов Количество дней: 3 |
Дистанционный |
Регистрация |
О продукте:
Apache Airflow — это фреймворк управления рабочими процессами и расписанием задач. Он написан на Python, имеет открытый исходный код и позволяет создавать, планировать, запуска и отслеживать выполнение пакетных рабочих процессов (workflow). Эти рабочие процессы обработки данных обычно включают несколько задач и выполняются в заданном порядке. Сегодня Airflow стал одним из наиболее востребованных инструментов дата-инженера, он широко используется для автоматизации и оркестрации сложных рабочих процессов от аналитики данных до машинного обучения и ETL-процессов. Фреймворк применяется для загрузки данных из разных источников, вычислений, запуска ML-моделей, генерации отчетов и других вычислительных операций.
Благодаря настраиваемым конфигурациям и Python-скриптам Airflow очень гибкий и подходит для множества сценариев. Расширяемая архитектура фреймворка позволяет добавлять собственные операторы и подключать сторонние инструменты. Чтобы дата-инженер не тратил время на управление инфраструктурой Airflow, Яндекс выпустил Yandex Managed Airflow — полностью управляемый сервис. Он позволяет использовать все возможности фреймворка, фокусируясь на построении эффективных конвейеров обработки данных вместо заботы об инфраструктуре. Этот курс по AirFlow на платформе Yandex разработан специалистами Школы Больших Данных совместно с дата-инженерами Яндекса.
Аудитория:
Наши курсы обучения по Airflow ориентированы на системных администраторов, инженеров данных (Data Engineer), архитекторов, DevOps-инженеров, разработчиков Hadoop и прочих Big Data систем.
Уровень подготовки:
- Знание базовых команд Linux (опыт работы с командной строкой, файловой системой, POSIX, текстовыми редакторами vi, nano)
- Базовый опыт программирования Python/bash
- Начальный опыт в экосистеме Apache Hadoop
- Средний опыт программирования SQL
Весь курс проводится на Yandex Managed Service for Apache Airflow™.
Продолжительность: 3 дня, 24 академических часа
Соотношение теории к практике 50/50
Курс проводится при поддержке
Программа курса «AIRFLOW с использованием Yandex Managed Service for Apache Airflow™»
1. Введение в Airflow
-
- Что такое Airflow?
- Почему Airflow?
- История создания
- Аналоги и конкуренты
- Airflow vs Oozie
- “Киты” Airflow
- Настройка образа в YandexCloud
2. Базовый Airflow
-
- Верхнеуровневая архитектура
- Компоненты: подробнее
- Executors
- LocalExecutor
- Схема учебного стенда
- DAG
- DAG: параметры
- Operators
- Operators: виды
- WEB UI: обзор
- Пайплайн по созданию DAG
- Dag: context
- Operator: основные параметры
- Composition
- EmptyOperator
- BashOperator
- Написание первого DAG
- TaskFlowApi
- PythonOperator
Практика № 1. Создание первого DAG, использование Python и Bash операторов, использование WebUI
-
- Запуск DAG с ручной конфигурацией
Практика № 2. Написание DAG с ручной передачей параметров
-
- Переменные и их использование (Variables)
Практика № 3. Применение Variables, default_args
Практика № 4. Применение Variables расширенное
-
- Connections
- Sensors
Практика № 5. Применение fileSensor
-
- ExternalTaskSensor
3. Расширенный Airflow
-
- Trigger Rules
Практика № 6. Использование fileSensor + triggerRules
-
- Backfill & catchup
- Templates
- Macros
- Yandex Managed Service for PostgreSQL
- Демонстрация ETL процесса на временном DataProc(Spark) кластере в Yandex Cloud
Практика № 7. Использование PostgresOperator, оркестрация ETL процесса
-
- Hooks
Практика № 8. Применение Hooks
-
- TaskGroup
- XCOM
- Dynamic Tasks
- XCOM vs Variable
Практика № 9. Финальная практика, включающая в себя все вышеизученное
Укажите e-mail, на который будет оправлена ссылка для скачивания файла:
Что Вы получите:
Окончив курс «AIRFLOW с использованием Yandex Managed Service for Apache Airflow™» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите удостоверение установленного образца, что свидетельствует о повышении квалификации. По умолчанию документ выдается в электронном виде (pdf-файл), по желанию делаем бумажный вариант без дополнительной оплаты.
Кто проводит курс
Профессиональные компетенции:
- Разработчик Python/Data Engineer/Scala
- Сопровождение, интеграция данных с помощью Apache Hadoop (Hbase,Hdfs, Kafka, Spark, Hive)
- Администрирование RHEL
- Разработка на Python
- Работа с мониторингом (Zabbix)
- Data Engineer в ВымпелКом-ИТ
- Старший аналитик/Ведущий инженер по разработке в Сбер, Самара
Отзывы наших клиентов о курсе
Оставить отзывЧтобы записаться на курс YARF: AIRFLOW с использованием Yandex Managed Service for Apache Airflow™ позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.