Data Pipeline на Apache Airflow

Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
AIRF
28 августа 2024
27 ноября 2024
72 000 руб. 24 ак.часов
Количество дней: 3
Дистанционный
Регистрация

3-дневный курс обучения по Airflow позволит вам получить и систематизировать знания по использованию самого популярного фреймворка для разработки, планирования и мониторинга пакетных рабочих процессов с большими данными. Курс содержит расширенные сведения по возможностям, которые предоставляет Apache Airflow для оркестрации сложных процессов и интеграции этой платформы с другими технологиями Big Data. Вы изучите полезные приемы дата-инженерии и лучшие практики (best practices) отрасли. Много практических заданий позволит закрепить полученные знания прямо на занятиях: проектируйте и реализуйте собственные workflow при поддержке опытного преподавателя!

О продукте:

Airflow (Apache Airflow) — это открытая платформа для управления рабочими процессами и расписанием задач. Он позволяет создавать, планировать, запуска и отслеживать выполнение пакетных рабочих процессов (workflow). Эти рабочие процессы обработки данных обычно включают несколько задач и выполняются в заданном дата-инженером порядке.

Airflow используется для автоматизации и оркестрации сложных рабочих процессов в различных областях, таких как аналитика данных, обработка больших объемов данных, машинное обучение, ETL и интеграция данных. Он используется для загрузки данных из разных источников, вычислений, запуска моделей машинного обучения, генерации отчетов и других транзакционных и аналитических операций.

Благодаря настраиваемым конфигурациям и Python-скриптам Airflow очень гибкий и подходит для множества сценариев. Расширяемая архитектура фреймворка позволяет добавлять собственные операторы и подключать сторонние инструменты.

Сегодня Airflow очень широко используется в аналитике и инженерии данных, а также пользуется спросом у разработчиков.

Примеры прикладного использования Apache Airflow для управления процессами обработки больших данных разбираются в рамках нашего практического курса.

На практике Apache Airflow используется в следующих случаях:

  • интеграция множества информационных систем и данных из различных источников (внутренние и внешние базы, файловые хранилища, облачные приложения и пр.);
  • загрузка информации в корпоративное хранилище и озеро данных (Data Lake);
  • реализация ETL-процессов;
  • организация уникальных конвейеров доставки и обработки больших данных (data pipeline);
  • управление конфигурацией конвейеров данных как кодом в соответствии с DevOps-подходом;
  • автоматизация разработки, планирования и мониторинга batch-процессов обработки Data Flow.

Аудитория:

Наши курсы обучения по Airflow ориентированы на инженеров данных (Data Engineer), архитекторов, DevOps-инженеров и прочих Big Data систем.

Уровень подготовки:

  • Знание базовых команд Linux (опыт работы с командной строкой, файловой
    системой, POSIX, текстовыми редакторами vi, nano)
  • Базовый опыт программирования Python/bash
  • Начальный опыт в экосистеме Apache Hadoop
  • Средний опыт программирования SQL

Продолжительность: 3 дня, 24 академических часа
Соотношение теории к практике 50/50

Программа курса «Data Pipeline на Apache Airflow»

1. Введение в Airflow

    • Что такое Airflow?
    • Почему Airflow?
    • История создания
    • Аналоги и конкуренты
    • Airflow vs Oozie
    • “Киты” Airflow
    • Настройка образа в YandexCloud

2. Базовый Airflow

    • Верхнеуровневая архитектура
    • Компоненты: подробнее
    • Executors
    • LocalExecutor
    • Схема учебного стенда
    • DAG
    • DAG: параметры
    • Operators
    • Operators: виды
    • WEB UI: обзор
    • Пайплайн по созданию DAG
    • Dag: context
    • Operator: основные параметры
    • Composition
    • EmptyOperator
    • BashOperator
    • Написание первого DAG
    • TaskFlowApi
    • PythonOperator

Практика #1

  • Запуск дага с ручной конфигурацией

Практика #2

  • Variables

Практика #3

Практика #4

  • Connections
  • Sensors

Практика #5

  • ExternalTaskSensor                          

3. Расширенный Airflow

    • Trigger Rules

Практика #6

  • Backfill & catchup
  • Templates
  • Macros
  • PostgresOperator
  • Hooks

Практика #7

  • TaskGroup
  • XCOM
  • Dynamic Tasks
  • XCOM vs Variable

Практика #8

Скачать программу курса «Data Pipeline на Apache Airflow» в формате pdf

Отправить ссылку на:

Что Вы получите:

Окончив курс «Data Pipeline на Apache Airflow и Apache Hadoop» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите удостоверение установленного образца, которое может засчитываться в качестве свидетельства о повышении квалификации.

Кто проводит курс

Карташов Андрей
Самарский государственный университет путей сообщения, ЭТФ, АСОиИУ, (Самара, 2014)

Профессиональные компетенции:

  • Разработчик Python/Data Engineer/Scala
  • Сопровождение, интеграция данных с помощью Apache Hadoop (Hbase,Hdfs, Kafka, Spark, Hive)
  • Администрирование RHEL
  • Разработка на Python
  • Работа с мониторингом (Zabbix)
  • Data Engineer в ВымпелКом-ИТ
  • Старший аналитик/Ведущий инженер по разработке в Сбер, Самара

Отзывы наших клиентов о курсе

Чтобы записаться на курс AIRF: Data Pipeline на Apache Airflow позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.