Главная » Курсы » Тренинги по Большим данным » AIRF: Курс Apache AirFlow
Все курсы
Практический курс Data Pipeline на Apache Airflow и Apache Hadoop
Даты начала курса | 13 декабря 2023 04 марта 2024 27 мая 2024 |
|
Стоимость обучения | 66 000 руб. | Регистрация |
Длительность обучения | 24 ак.часов | |
Код курса | AIRF |
3-дневный курс обучения по Airflow позволит вам получить и систематизировать знания по использованию этого фреймворка для разработки, планирования и мониторинга рабочих процессов с большими данными. Курс содержит расширенные сведения по установке распределенного кластера Apache Airflow, администрированию и интеграции этой платформы с другими технологиями Big Data в соответствии с лучшими практиками (best practices).
Что такое Apache Airflow и где это используется
Apache Airflow — это open-source набор библиотек для разработки, планирования и мониторинга рабочих процессов. Этот инструмент написан на языке программирования Python и позволяет создавать и настраивать цепочки задач как в визуальном режиме с помощью наглядного web-GUI, так и писать программный код на Python.
AirFlow принято называть ETL-средством для пакетов Big Data, он не является классической ETL-системой, а лишь помогает представить процесс извлечения-преобразования-загрузки данных в виде единого проекта на Python, чтобы удобно и эффективно управлять им.
На практике Apache Airflow используется в следующих случаях:
- интеграция множества информационных систем и данных из различных источников (внутренние и внешние базы, файловые хранилища, облачные приложения и пр.);
- загрузка информации в корпоративное озеро данных (Data Lake);
- организация уникальных конвейеров доставки и обработки больших данных (data pipeline);
- управление конфигурацией конвейеров данных как кодом в соответствии с DevOps-подходом;
- автоматизация разработки, планирования и мониторинга batch-процессов обработки Data Flow.
Все эти и другие примеры прикладного использования Apache Airflow для управления batch-процессами обработки больших данных разбираются в рамках нашего практического курса.
Кому нужны курсы по Airflow
Наши курсы обучения по Airflow ориентированы на системных администраторов, инженеров данных (Data Engineer), архитекторов, DevOps-инженеров, разработчиков Hadoop и прочих Big Data систем.
Предварительный уровень подготовки:
- Знание базовых команд Linux (опыт работы с командной строкой, файловой
системой , POSIX, текстовыми редакторами vi, nano) - Базовый опыт программирования Python/bash
- Начальный опыт в экосистеме Apache Hadoop
- Средний опыт программирования SQL
Продолжительность: 3 дня, 24 академических часа
Соотношение теории к практике 50/50
Программа курса
1. Введение в AirFlow
- Что такое Apache Airflow?
- Почему Airflow?
- История создания Airflow
- Аналоги и конкуренты
- Сравнение с конкурентами
- Оркестрация
- Где применяется?
LAB01_AIRFLOW workflow для ETL
2. Основные абстракции и компоненты
- Верхнеуровневая архитектура
- Программные компоненты
- Абстракции: DAG
- Абстракции: operator
- Абстракции: operator
- Абстракции: композиция операторов
- Абстракции: Variable
- Исполнение и dag run
- Task States
- Обзор WEB UI
LAB02_AIRFLOW Person Aggregate
3. Написание простых DAG
- Разработка конвейеров данных
- ETL
- Data Pipelines (ELT) vs ETL Pipelines dataflow vs workflow
- Pipeline и Airflow
- Способы построения DAGов
- Создание DAG (pipeline)
- Объект: DAG
- Объект: operator
- Объект: PythonOperator
- Композиция
- Первый DAG: дизайн
- Первый DAG: схема
LAB03 Написание DAG
4. Дополнительные возможности
- Connections
- Hooks
- Templates
- Macros
- Sensors
- Готовые сенсоры
- Trigger Rules
- Backfill & catchup
- TaskGroup
- Dynamic: XCOM
- Dynamic: Dynamic Task Generation
REST API & CLI
5. APACHE SPARK
- Что такое SPARK?
- Как устроен SPARK?
- Как работает SPARK?
- Airflow + Spark
- Airflow: unitTest
6. Настройка, установка Airflow. Немного про docker. Тесты
- Airflow: Versions
- Airflow: Локальная установка
- Airflow: with Docker
- Docker
- Docker: основные особенности
- Docker: преимущества
- Docker: основные компоненты
- Docker: основные компоненты
- Airflow в Docker: как установить?
Программа курса «AIRF: Data Pipeline на Apache Airflow и Apache Hadoop»
Отправить ссылку на: