Все курсы
Курс Data pipeline на Apache AirFlow и Arenadata Hadoop
Код курса | Даты начала курса | Стоимость обучения | Длительность обучения | Формат обучения |
---|---|---|---|---|
ADH-AIR | по запросу |
по запросу | ак.часов Количество дней: дней |
Дистанционный |
Регистрация |
3-хдневный авторский практический курс по построению конвейеров обработки больших данных для аналитиков и инженеров данных, архитекторов и специалистов по настройке и сопровождению потоков данных (Data Flow) в организации и озерах данных под управлением Arenadata Hadoop и Apache AirFlow.
Что такое Apache Airflow, Arenadata Hadoop и где это используется
Apache Airflow — это open-source набор библиотек для разработки, планирования и мониторинга рабочих процессов. Этот инструмент написан на языке программирования Python и позволяет создавать и настраивать цепочки задач как в визуальном режиме с помощью наглядного web-GUI, так и писать программный код на Python.
Apache AirFlow принято называть ETL-средством для пакетов Big Data, но он не является ETL-системой, а лишь помогает оркестрировать процесс извлечения-преобразования-загрузки данных в виде единого проекта на Python (Workflow), чтобы удобно и эффективно управлять им.
На практике Apache Airflow используется в следующих случаях:
- интеграция множества информационных систем и данных из различных источников (внутренние и внешние базы, файловые хранилища, облачные приложения и пр.);
- загрузка информации в корпоративное озеро данных (Data Lake);
- организация уникальных конвейеров доставки и обработки больших данных (data pipeline);
- управление конфигурацией конвейеров данных как кодом в соответствии с DevOps-подходом;
- автоматизация разработки, планирования и мониторинга batch-процессов обработки Data Flow.
Arenadata Hadoop (ADH) – это отечественный дистрибутив распределенной платформы хранения и обработки больших данных на базе Apache Hadoop, адаптированный для корпоративного использования и зарегистрированный в государственном реестре программ для ЭВМ. Он включает множество технологий Big Data для хранения и аналитики больших данных, в т.ч. Apache Spark, Livy и Zeppelin, которые и рассматриваются в настоящем курсе в связке с AirFlow. Apache Airflow также входит в дистрибутив Arenadata Hadoop версии 2. Благодаря комплексному составу и российскому происхождению, ADH отлично подходит для проектов цифровизации государственных и муниципальных предприятий, а также активно используется многими частными компаниями России и СНГ.
В этом практико-ориентированном курсе мы фокусируемся на использовании Apache Airflow для построения конвейеров обработки больших данных в среде Arenadata Hadoop 2.1, а процесс разработки происходит в среде Apache Zeppelin.
Кому нужны курсы по Airflow и Arenadata Hadoop
Наши курсы обучения по Apache Airflow и Arenadata Hadoop ориентированы на инженеров данных (Data Engineer), системных архитекторов, DevOps-инженеров, разработчиков Hadoop и прочих Big Data систем, которые хотят получить практические знания и навыки по разработке эффективных конвейеров обработки больших данных. В процессе курса вы сможете:
- понять, что такое Apache Airflow;
- освоить принципы работы с задачами, операторами и DAG’ами;
- научиться разрабатывать конвейеры обработки данных;
- интегрировать Apache Aiflow с Apache Spark с использованием Apache Livy.
Предварительный уровень подготовки:
- Знание базовых команд Linux (опыт работы с командной строкой, файловой системой, POSIX, текстовыми редакторами vi, nano)
- Начальный опыт программирования Python/bash
- Опыт работы с Apache Hadoop или прослушанный курс: ADHI: Основы Arenadata Hadoop или INTR: Основы Hadoop
Как устроено обучение Apache Airflow и Arenadata Hadoop
Продолжительность: 3 дня, 24 академических часа.
Соотношение теории к практике 40/60
3х—дневный курс обучения по Apache Airflow и Arenadata Hadoop позволит вам получить и систематизировать знания по использованию этих фреймворков для разработки эффективных конвейеров обработки больших данных. Курс содержит расширенные сведения по вопросам разработки на Apache Airflow и интеграции этой платформы с Apache Spark и Livy в соответствии с лучшими практиками (best practices).
Вы изучите необходимый теоретический минимум, чтобы понять основные концепции этого инструмента и узнаете способы эффективной интеграции Apache Airflow и Apache Spark. В результате вы сможете самостоятельно построить собственный конвейер обработки больших данных (data pipeline) с использованием инструментария, предоставляемого дистрибутивом Arenadata Hadoop. Преподаватель курса по Apache Airflow и Arenadata Hadoop подробно объяснит все тонкости установки, конфигурирования, мониторинга и прикладного использования этих Big Data систем, чтобы вы могли в дальнейшем успешно работать с ними.
На практике вы разработаете собственный конвейер обработки данных на связке Apache Airflow + Spark + Livy, максимально эффективно используя возможности параллельной обработки, предоставляемые кластером Arenadata Hadoop и фреймворком параллельной обработки больших данных Apache Spark.
Программа курса «Построение эффективных конвейеров обработки данных с Apache Airflow и Arenadata Hadoop»
- Знакомство с Airflow
- История появления, решаемые задачи, место в наборе инструментов по обработке данных
- Основные объекты (DAG, оператор и task, сенсор, объединение компонентов в DAG)
- Процесс исполнения (worker-ы и executor-ы, параллельное и последовательное исполнение)
- Планирование и график исполнения DAG
- Компоненты Airflow (scheduler, административный web интерфейс)
- Алерты и логирование
- Переменные и xcomm
- Connection и работа с источниками данных
- Конфигурация Airflow
- Разработка конвейеров обработки данных
- Процесс создания DAG
- Основные операторы
- Создание (настройка) python и bash операторов
- Создание собственных операторов и сенсоров
- Использование connection
- Hooks и практические примеры использования
- xcomm и переменные: зачем нужны и что дают
- Возможности макроязыка (Jinja)
- Настройка расписания и его особенности
- Основы Hadoop
- Проблематика «больших данных»
- Основные компоненты Hadoop
- Хранение и работа с данными в Hadoop
- Дистрибутив Аренадата Hadoop
- Apache Zeppelin и вопросы практического использования компонентов дистрибутива
- Знакомство с Apache Spark
- Архитектура и компоненты фреймворка
- Работа в Apache Zeppelin
- Основные абстракции (Dataframe, RDD)
- Работа с источниками данных и Spark SQL
- Конвейерная обработка данных с использованием Apache Spark
- Основы Apache Livy
- Архитектура Apache Livy
- Предоставляемый REST API
- Интеграция Airflow с Apache Spark/Livy
- Архитектура конвейера обработки данных
- Пример реализации конвейера обработки данных на Аренадата Hadoop
Практические занятия:
- Создание простых DAG
- Настройка python и bash операторов
- Разработка операторов и сенсоров
- Взаимодействие с Apache Spark & Livy
Отправить ссылку на: