AIRFLOW с использованием Yandex Managed Service for Apache Airflow™

Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
YARF
28 октября 2024
72 000 руб. 24 ак.часов
Количество дней: 3
Дистанционный
Регистрация

3-хдневный курс обучения по Airflow позволит вам получить и систематизировать знания по использованию этого фреймворка для разработки, планирования и мониторинга рабочих процессов с большими данными.  Курс содержит расширенные сведения по установке распределенного кластера Apache Airflow, администрированию и интеграции этой платформы с другими технологиями Big Data в соответствии с лучшими практиками (best practices).

О продукте:

Apache Airflow — это фреймворк управления рабочими процессами и расписанием задач. Он написан на Python, имеет открытый исходный код и позволяет создавать, планировать, запуска и отслеживать выполнение пакетных рабочих процессов (workflow). Эти рабочие процессы обработки данных обычно включают несколько задач и выполняются в заданном порядке. Сегодня Airflow стал одним из наиболее востребованных инструментов дата-инженера, он широко используется для автоматизации и оркестрации сложных рабочих процессов от аналитики данных до машинного обучения и ETL-процессов. Фреймворк применяется для загрузки данных из разных источников, вычислений, запуска ML-моделей, генерации отчетов и других вычислительных операций.

Благодаря настраиваемым конфигурациям и Python-скриптам Airflow очень гибкий и подходит для множества сценариев. Расширяемая архитектура фреймворка позволяет добавлять собственные операторы и подключать сторонние инструменты. Чтобы дата-инженер не тратил время на управление инфраструктурой Airflow, Яндекс выпустил Yandex Managed Airflow — полностью управляемый сервис. Он позволяет использовать все возможности фреймворка, фокусируясь на построении эффективных конвейеров обработки данных вместо заботы об инфраструктуре. Этот курс по AirFlow на платформе Yandex разработан специалистами Школы Больших Данных совместно с дата-инженерами Яндекса.

Аудитория:

Наши курсы обучения по Airflow ориентированы на системных администраторов, инженеров данных (Data Engineer), архитекторов, DevOps-инженеров, разработчиков Hadoop и прочих Big Data систем.

Уровень подготовки:

  • Знание базовых команд Linux (опыт работы с командной строкой, файловой системой, POSIX, текстовыми редакторами vi, nano)
  • Базовый опыт программирования Python/bash
  • Начальный опыт в экосистеме Apache Hadoop
  • Средний опыт программирования SQL

Весь курс проводится на Yandex Managed Service for Apache Airflow™.

Продолжительность: 3 дня, 24 академических часа
Соотношение теории к практике 50/50

Программа курса «AIRFLOW с использованием Yandex Managed Service for Apache Airflow™»

1. Введение в Airflow

    • Что такое Airflow?
    • Почему Airflow?
    • История создания
    • Аналоги и конкуренты
    • Airflow vs Oozie
    • “Киты” Airflow
    • Настройка образа в YandexCloud

2. Базовый Airflow

    • Верхнеуровневая архитектура
    • Компоненты: подробнее
    • Executors
    • LocalExecutor
    • Схема учебного стенда
    • DAG
    • DAG: параметры
    • Operators
    • Operators: виды
    • WEB UI: обзор
    • Пайплайн по созданию DAG
    • Dag: context
    • Operator: основные параметры
    • Composition
    • EmptyOperator
    • BashOperator
    • Написание первого DAG
    • TaskFlowApi
    • PythonOperator

Практика № 1. Создание первого DAG, использование Python и Bash операторов, использование WebUI

    • Запуск DAG с ручной конфигурацией

Практика № 2. Написание DAG с ручной передачей параметров

    • Переменные и их использование (Variables)

Практика № 3. Применение Variables, default_args

Практика № 4. Применение Variables расширенное

    • Connections
    • Sensors

Практика № 5. Применение fileSensor

    • ExternalTaskSensor

3. Расширенный Airflow

    • Trigger Rules

Практика № 6. Использование fileSensor + triggerRules

    • Backfill & catchup
    • Templates
    • Macros
    • Yandex Managed Service for PostgreSQL
    • Демонстрация ETL процесса на временном DataProc(Spark) кластере в Yandex Cloud

Практика № 7. Использование PostgresOperator, оркестрация ETL процесса

    • Hooks

Практика № 8. Применение Hooks

    • TaskGroup
    • XCOM
    • Dynamic Tasks
    • XCOM vs Variable

Практика № 9. Финальная практика, включающая в себя все вышеизученное

Скачать программу курса «AIRFLOW с использованием Yandex Managed Service for Apache Airflow™»

Укажите e-mail, на который будет оправлена ссылка для скачивания файла:

Что Вы получите:

Окончив курс «AIRFLOW с использованием Yandex Managed Service for Apache Airflow™» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите удостоверение установленного образца, что свидетельствует о повышении квалификации. По умолчанию документ выдается в электронном виде (pdf-файл), по желанию делаем бумажный вариант без дополнительной оплаты.

" width="600" height="350" frameborder="0">

Кто проводит курс

Карташов Андрей
Самарский государственный университет путей сообщения, ЭТФ, АСОиИУ, (Самара, 2014)

Профессиональные компетенции:

  • Разработчик Python/Data Engineer/Scala
  • Сопровождение, интеграция данных с помощью Apache Hadoop (Hbase,Hdfs, Kafka, Spark, Hive)
  • Администрирование RHEL
  • Разработка на Python
  • Работа с мониторингом (Zabbix)
  • Data Engineer в ВымпелКом-ИТ
  • Старший аналитик/Ведущий инженер по разработке в Сбер, Самара

Отзывы наших клиентов о курсе

Чтобы записаться на курс YARF: AIRFLOW с использованием Yandex Managed Service for Apache Airflow™ позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.
Поиск по сайту