Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

13Окт
2021

3 Р для контроля доступа к DAG’ам в Apache AirFlow: роли, ресурсы, разрешения

Автор Анна Вичуговав категории AirFlow, Блог

Airflow Flask AppBuilder, обучение Airflow курсы безопасность настройка DAG, Airflow DAG контроль доступа, обучение дата-инженер курсы, Школа Больших Данных Учебный Центр Коммерсант

Добавляя в наши курсы для дата-инженеров по Apache Airflow полезные примеры, сегодня рассмотрим тонкости контроля доступа к DAG в этой платформе. Читайте далее, какие роли есть в Apache Airflow, каковы разрешения для них и как Flask AppBuilder осуществляет управление доступом к пользовательскому интерфейсу веб-сервера. Безопасность DAG’ов в Apache AirFlow: роли...

23Сен
2021

Что такое Apache Hop: еще одна альтернатива AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

Apache Hop примеры, Apache Hop vs AirFlow, курсы по Airflow, администрирование и использование Airflow, Airflow для инженера данных, Apache Airflow обучение, курсы дата-инженеров и администраторов, обучение инженеров Big Data, инженерия больших данных, AirFlow применение, data pipeline, AirFlow инженерия данных обучение, Школа Больших Данных Учебный центр Коммерсант

При том, что Apache Airflow сегодня считается главным инструментом дата-инженерии, он далеко не единственное средство оркестрации пакетных заданий и построения конвейеров обработки больших данных. В рамках продвижения наших курсов для инженеров Big Data, сегодня рассмотрим, что такое Apache Hop, чем это отличается от AirFlow и где использовать эту платформу, а...

13Сен
2021

Строим масштабируемые ETL/ELT-конвейеры обработки данных с Apache Spark и AirFlow: 4 совета дата-инженеру

Автор Анна Вичуговав категории AirFlow, Spark, Блог

озеро данных для дата-инженера курсы обучение, ETL ELT процессы Data Lake курсы обучение, обучение инженеров данных, Apache AirFlow курсы обучение, озеро данных Hadoop курсы обучение, курсы Spark для разработчиков и инженеров данных обучение, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров мы собрали лучшие практики построения масштабируемых конвейеров обработки данных, а также популярные рекомендации по проектированию ETL/ELT-процессов с Apache Spark, AirFlow и другими технологиями Big Data. Читайте далее, когда ELT лучше ETL и наоборот, чем хорош Apache Spark в конвейерах обработки Big Data, зачем нужен AirFlow,...

05Сен
2021

Создавайте графы в Apache Airflow с помощью TaskFlow API

Автор Dmitry Ermilovв категории AirFlow, Блог

В предыдущей статье мы говорили о том, как начать работать с Apache Airflow. Сегодня пойдет речь о новом инструменте, появившемся в Airflow 2, — TaskFlow API. Он обеспечивает кросс-коммуникацию между задачами с помощью обычных функций Python. На примере ETL-конвейера мы объясним, как соорудить DAG на основе TaskFlow API, а также...

03Сен
2021

Безопасность в режиме онлайн: SIEM-система на базе Apache NiFi от Cloudera

Автор Анна Вичуговав категории Internet of Things, NiFi, Use Cases, Блог

SIEM, NiFi, Apache NiFi Для дата-инженеров, инженерия больших данных, SIEM кибербезопасность Apache NiFi, Apache NiFi для инженеров данных, Apache NiFi для дата-инженеров, информационная безопасность с Apache NiFi, управление потоками данных Apache NiFi, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров рассмотрим, что такое Cloudera Flow Management и как это позволяет ускорить аналитику больших данных в кейсах информационной безопасности. Читайте далее о преимуществах SIEM-анализа, преобразования и распределения security-событий с помощью Apache NiFi и его легковесного агента MiNiFi для устройств интернета вещей (Internet Of Things, IoT). Что...

25Авг
2021

Как Apache AirFlow под капотом Zapier обеспечивает low-code интеграцию веб-приложений

Автор Анна Вичуговав категории AirFlow, Блог

курсы по Airflow, администрирование и использование Airflow, Airflow для инженера данных, Apache Airflow обучение, курсы дата-инженеров и администраторов, обучение инженеров Big Data, инженерия больших данных, AirFlow применение, data pipeline, AirFlow инженерия данных обучение, Школа Больших Данных Учебный центр Коммерсант

Инженерия данных нужна не только большим компаниям с крупными Big Data проектами. Сегодня рассмотрим, как Apache AirFlow повышает эффективность low-code фреймворка Zapier с помощью своего REST API и Amazon SQS. Также читайте далее об интеграции приложений без разработки кода и удаленный запуск Matillion-заданий в AWS с AirFlow. Low Code интеграция...

19Авг
2021

Как упростить загрузку данных в Data Lake с Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

обучение AirFlow, курсы Apache AirFlow, Apache AirFlow для дата-инженеров, Apache AirFlow для инженеров данных курсы обучение примеры, DAG Factory Apache AirFlow пример, Data Lake ELT Apache AirFlow, Школа Больших Данных Учебный центр Коммерсант

Чтобы добавить в курсы по Apache AirFlow еще больше полезных примеров, сегодня рассмотрим, как избежать дублирования кода при загрузке данных. Этот пример пригодится дата-инженерам в работе с ELT-процессами наполнения информацией корпоративных хранилищ и озер данных. Читайте про фреймворк динамической загрузки данных на базе конфигурационных YAML-файлов, DAG-фабрик и загрузчиков. Проблема дублирования...

07Авг
2021

В помощь дата-инженеру: 3 главных плюса реестра провайдеров Apache Airflow от Astronomer

Автор Анна Вичуговав категории AirFlow, Блог

Мы уже писали про преимущества разделения пакетов в Apache AirFlow 2.0. Сегодня рассмотрим, как открытый реестр Python-пакетов от компании Astronomer облегчает разработку конвейеров обработки данных, чем провайдеры отличаются от модулей и насколько удобно дата-инженеру всем этим пользоваться. От монолита к мульти-пакетной архитектуре в Apache Airflow 2.0 Напомним, во 2-ой версии...

30Июл
2021

Динамическая генерация DAG в Apache Airflow: 5 способов автоматизации рутинных задач

Автор Анна Вичуговав категории AirFlow, Блог

Сегодня рассмотрим, как упростить работу дата-инженера в Apache AirFlow, автоматизировав процесс создания DAG’ов из одного или нескольких Python-файлов. На практических примерах разберем достоинства и недостатки 5 способов динамической генерации, а также особенности масштабирования Big Data pipeline’ов. Что такое динамическая генерация DAG в Apache Airflow и зачем она нужна В статье...

21Июл
2021

Лучшие практики разработки Big Data pipeline’ов в Apache Airflow: 10 советов дата-инженеру

Автор Анна Вичуговав категории AirFlow, Блог

курсы по Airflow, администрирование и поддержка Airflow, Airflow для инженера данных, Apache Airflow обучение, курсы дата-инженеров и администраторов, обучение инженеров Big Data, инженерия больших данных, AirFlow применение, data pipeline, AirFlow инженерия данных обучение, Школа Больших Данных Учебный центр Коммерсант

В рамках практического обучения дата-инженеров сегодня мы собрали 10 лучших практик проектирования конвейеров обработки данных в рамках Apache AirFlow, которые касаются не только особенностей этого фреймворка. Также рассмотрим, какие принципы разработки ПО особенно полезны для инженерии больших данных с Apache AirFlow. ТОП-10 рекомендаций дата-инженеру для настройки Apache Airflow и не...