Data Pipeline на Apache Airflow

3-дневный курс обучения по Airflow позволит вам получить и систематизировать знания по использованию самого популярного фреймворка для разработки, планирования и мониторинга пакетных рабочих процессов с большими данными. Курс содержит расширенные сведения по возможностям, которые предоставляет Apache Airflow для оркестрации сложных процессов и интеграции этой платформы с другими технологиями Big Data. Вы изучите полезные приемы дата-инженерии и лучшие практики (best practices) отрасли. Много практических заданий позволит закрепить полученные знания прямо на занятиях: проектируйте и реализуйте собственные workflow при поддержке опытного преподавателя!

Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
AIRF
27 ноября 2024
19 марта 2025
72 000 руб. 24 ак.часов
Количество дней: 3
Дистанционный
Регистрация

О продукте:

Airflow (Apache Airflow) — это открытая платформа для управления рабочими процессами и расписанием задач. Он позволяет создавать, планировать, запуска и отслеживать выполнение пакетных рабочих процессов (workflow). Эти рабочие процессы обработки данных обычно включают несколько задач и выполняются в заданном дата-инженером порядке.

Airflow используется для автоматизации и оркестрации сложных рабочих процессов в различных областях, таких как аналитика данных, обработка больших объемов данных, машинное обучение, ETL и интеграция данных. Он используется для загрузки данных из разных источников, вычислений, запуска моделей машинного обучения, генерации отчетов и других транзакционных и аналитических операций.

Благодаря настраиваемым конфигурациям и Python-скриптам Airflow очень гибкий и подходит для множества сценариев. Расширяемая архитектура фреймворка позволяет добавлять собственные операторы и подключать сторонние инструменты.

Сегодня Airflow очень широко используется в аналитике и инженерии данных, а также пользуется спросом у разработчиков.

Примеры прикладного использования Apache Airflow для управления процессами обработки больших данных разбираются в рамках нашего практического курса.

На практике Apache Airflow используется в следующих случаях:

  • интеграция множества информационных систем и данных из различных источников (внутренние и внешние базы, файловые хранилища, облачные приложения и пр.);
  • загрузка информации в корпоративное хранилище и озеро данных (Data Lake);
  • реализация ETL-процессов;
  • организация уникальных конвейеров доставки и обработки больших данных (data pipeline);
  • управление конфигурацией конвейеров данных как кодом в соответствии с DevOps-подходом;
  • автоматизация разработки, планирования и мониторинга batch-процессов обработки Data Flow.

Аудитория:

Наши курсы обучения по Airflow ориентированы на инженеров данных (Data Engineer), архитекторов, DevOps-инженеров и прочих Big Data систем.

Уровень подготовки:

  • Знание базовых команд Linux (опыт работы с командной строкой, файловой
    системой, POSIX, текстовыми редакторами vi, nano)
  • Базовый опыт программирования Python/bash
  • Начальный опыт в экосистеме Apache Hadoop
  • Средний опыт программирования SQL

Продолжительность: 3 дня, 24 академических часа
Соотношение теории к практике 50/50

Программа курса «Data Pipeline на Apache Airflow»

1. Введение в Airflow

    • Что такое Airflow?
    • Почему Airflow?
    • История создания
    • Аналоги и конкуренты
    • Airflow vs Oozie
    • “Киты” Airflow
    • Настройка образа в YandexCloud

2. Базовый Airflow

    • Верхнеуровневая архитектура
    • Компоненты: подробнее
    • Executors
    • LocalExecutor
    • Схема учебного стенда
    • DAG
    • DAG: параметры
    • Operators
    • Operators: виды
    • WEB UI: обзор
    • Пайплайн по созданию DAG
    • Dag: context
    • Operator: основные параметры
    • Composition
    • EmptyOperator
    • BashOperator
    • Написание первого DAG
    • TaskFlowApi
    • PythonOperator

Практика #1

  • Запуск дага с ручной конфигурацией

Практика #2

  • Variables

Практика #3

Практика #4

  • Connections
  • Sensors

Практика #5

  • ExternalTaskSensor                          

3. Расширенный Airflow

    • Trigger Rules

Практика #6

  • Backfill & catchup
  • Templates
  • Macros
  • PostgresOperator
  • Hooks

Практика #7

  • TaskGroup
  • XCOM
  • Dynamic Tasks
  • XCOM vs Variable

Практика #8

Скачать программу курса «Data Pipeline на Apache Airflow» в формате pdf

Отправить ссылку на:

Что Вы получите:

Окончив курс «Data Pipeline на Apache Airflow и Apache Hadoop» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите удостоверение установленного образца, которое может засчитываться в качестве свидетельства о повышении квалификации.

Кто проводит курс

Карташов Андрей
Самарский государственный университет путей сообщения, ЭТФ, АСОиИУ, (Самара, 2014)

Профессиональные компетенции:

  • Разработчик Python/Data Engineer/Scala
  • Сопровождение, интеграция данных с помощью Apache Hadoop (Hbase,Hdfs, Kafka, Spark, Hive)
  • Администрирование RHEL
  • Разработка на Python
  • Работа с мониторингом (Zabbix)
  • Data Engineer в ВымпелКом-ИТ
  • Старший аналитик/Ведущий инженер по разработке в Сбер, Самара

Отзывы наших клиентов о курсе

Оставить отзыв

Чтобы записаться на курс AIRF: Data Pipeline на Apache Airflow позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.
Поиск по сайту