Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

23Сен
2021

Что такое Apache Hop: еще одна альтернатива AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

Apache Hop примеры, Apache Hop vs AirFlow, курсы по Airflow, администрирование и использование Airflow, Airflow для инженера данных, Apache Airflow обучение, курсы дата-инженеров и администраторов, обучение инженеров Big Data, инженерия больших данных, AirFlow применение, data pipeline, AirFlow инженерия данных обучение, Школа Больших Данных Учебный центр Коммерсант

При том, что Apache Airflow сегодня считается главным инструментом дата-инженерии, он далеко не единственное средство оркестрации пакетных заданий и построения конвейеров обработки больших данных. В рамках продвижения наших курсов для инженеров Big Data, сегодня рассмотрим, что такое Apache Hop, чем это отличается от AirFlow и где использовать эту платформу, а...

13Сен
2021

Строим масштабируемые ETL/ELT-конвейеры обработки данных с Apache Spark и AirFlow: 4 совета дата-инженеру

Автор Анна Вичуговав категории AirFlow, Spark, Блог

озеро данных для дата-инженера курсы обучение, ETL ELT процессы Data Lake курсы обучение, обучение инженеров данных, Apache AirFlow курсы обучение, озеро данных Hadoop курсы обучение, курсы Spark для разработчиков и инженеров данных обучение, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров мы собрали лучшие практики построения масштабируемых конвейеров обработки данных, а также популярные рекомендации по проектированию ETL/ELT-процессов с Apache Spark, AirFlow и другими технологиями Big Data. Читайте далее, когда ELT лучше ETL и наоборот, чем хорош Apache Spark в конвейерах обработки Big Data, зачем нужен AirFlow,...

12Сен
2021

Airflow и TaskFlow: композиция операторов и задач с TaskGroup

Автор Dmitry Ermilovв категории AirFlow, Блог

В предыдущей статье мы рассмотрели TaskFlow API, появившийся в Apache Airflow 2.0. Сегодня поговорим о способах задания операторов, отличных от PythonOperator, а также о способе группировки задач TaskGroup. Читайте далее: как сформировать BashOperator, используя TaskFlow API, когда следует использовать TaskGroup, в чем преимущества TaskGroup перед SubDag. Используем Bash Operator в...

05Сен
2021

Создавайте графы в Apache Airflow с помощью TaskFlow API

Автор Dmitry Ermilovв категории AirFlow, Блог

В предыдущей статье мы говорили о том, как начать работать с Apache Airflow. Сегодня пойдет речь о новом инструменте, появившемся в Airflow 2, — TaskFlow API. Он обеспечивает кросс-коммуникацию между задачами с помощью обычных функций Python. На примере ETL-конвейера мы объясним, как соорудить DAG на основе TaskFlow API, а также...

29Авг
2021

Начало работы с Apache Airflow

Автор Dmitry Ermilovв категории AirFlow, Блог

В прошлой статье мы рассмотрели установку Apache Airflow на свой компьютер. Данная платформа предназначена для планирования задач, например, выполнения скриптов Bash и Python в заданное время, в заданной последовательности. Сегодня на примере выполнения двух Bash-команд расскажем, как создать свой первый граф. Читайте в этой статье: связи между задачами, создание графа...

28Авг
2021

2 способа установки Apache Airflow

Автор Dmitry Ermilovв категории AirFlow, Блог

Apache Airflow имеет множество зависимостей, поэтому установка может быть проблематичной. В отличие от 1-й версии, Airflow 2 устанавливается гораздо проще. В этой статье разберем установку Apache Airflow через пакетный менеджер pip и через Docker. Локальная установка Apache Airflow Apache Airflow был протестирован на: Python: 3.6, 3.7, 3.8, 3.9 СУБД (Система...

25Авг
2021

Как Apache AirFlow под капотом Zapier обеспечивает low-code интеграцию веб-приложений

Автор Анна Вичуговав категории AirFlow, Блог

курсы по Airflow, администрирование и использование Airflow, Airflow для инженера данных, Apache Airflow обучение, курсы дата-инженеров и администраторов, обучение инженеров Big Data, инженерия больших данных, AirFlow применение, data pipeline, AirFlow инженерия данных обучение, Школа Больших Данных Учебный центр Коммерсант

Инженерия данных нужна не только большим компаниям с крупными Big Data проектами. Сегодня рассмотрим, как Apache AirFlow повышает эффективность low-code фреймворка Zapier с помощью своего REST API и Amazon SQS. Также читайте далее об интеграции приложений без разработки кода и удаленный запуск Matillion-заданий в AWS с AirFlow. Low Code интеграция...

19Авг
2021

Как упростить загрузку данных в Data Lake с Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

обучение AirFlow, курсы Apache AirFlow, Apache AirFlow для дата-инженеров, Apache AirFlow для инженеров данных курсы обучение примеры, DAG Factory Apache AirFlow пример, Data Lake ELT Apache AirFlow, Школа Больших Данных Учебный центр Коммерсант

Чтобы добавить в курсы по Apache AirFlow еще больше полезных примеров, сегодня рассмотрим, как избежать дублирования кода при загрузке данных. Этот пример пригодится дата-инженерам в работе с ELT-процессами наполнения информацией корпоративных хранилищ и озер данных. Читайте про фреймворк динамической загрузки данных на базе конфигурационных YAML-файлов, DAG-фабрик и загрузчиков. Проблема дублирования...

07Авг
2021

В помощь дата-инженеру: 3 главных плюса реестра провайдеров Apache Airflow от Astronomer

Автор Анна Вичуговав категории AirFlow, Блог

Мы уже писали про преимущества разделения пакетов в Apache AirFlow 2.0. Сегодня рассмотрим, как открытый реестр Python-пакетов от компании Astronomer облегчает разработку конвейеров обработки данных, чем провайдеры отличаются от модулей и насколько удобно дата-инженеру всем этим пользоваться. От монолита к мульти-пакетной архитектуре в Apache Airflow 2.0 Напомним, во 2-ой версии...

30Июл
2021

Динамическая генерация DAG в Apache Airflow: 5 способов автоматизации рутинных задач

Автор Анна Вичуговав категории AirFlow, Блог

Сегодня рассмотрим, как упростить работу дата-инженера в Apache AirFlow, автоматизировав процесс создания DAG’ов из одного или нескольких Python-файлов. На практических примерах разберем достоинства и недостатки 5 способов динамической генерации, а также особенности масштабирования Big Data pipeline’ов. Что такое динамическая генерация DAG в Apache Airflow и зачем она нужна В статье...