Публикации с меткой AirFlow

20Май
2025

Не только Python: Go SDK в Apache AirFlow 3.0

курсы дата-инженеров Airflow, Airflow 3.0 примеры курсы обучение, Школа Больших Данных

Зачем в Apache AirFlow 3.0 добавлена поддержка Go и как работает этот экспериментальный SDK: возможности и ограничения разработки и запуска задач на компилируемом языке программирования. Мультиязычность в Apache AirFlow 3.0 Одной из ключевых новинок недавно выпущенного Apache AirFlow 3.0, о котором мы писали здесь, стала его мультиязычность. Теперь фреймворк поддерживает...

23Апр
2025

Apache AirFlow 3.0: главные новости

Автор Анна Вичуговав категории AirFlow

22 апреля 2025 вышел долгожданный крупный релиз Apache Airflow. Знакомимся с главными новинками версии 3.0: изменения архитектуры и пользовательского интерфейса для повышения устойчивости и безопасности фреймворка. Еще раз про версионирование DAG в Apache AirFlow 3.0 Недавно мы писали про бета-релиз Apache AirFlow 3.0. Теперь мажорная версия вышла официально и доступна...

05Апр
2025

AI SDK для Apache AirFlow: оркестрация LLM-задач

Автор Анна Вичуговав категории AirFlow, Machine Learning

курсы дата-инженеров Airflow AI, искусственный интеллект в инженерии данных, ИИ LLM Airflow, Школа Больших Данных

Как LLM упрощают работу дата-инженера: новые декораторы TaskFlow API в Apache Airflow для внедрения больших языковых моделей в DAG. Обзор Airflow AI SDK на основе Pydantic AI с практическим примером про анализ отзывов. ИИ в инженерии данных Мультимодальность современных инструментов машинного обучения, когда одна ML-модель может принимать на вход данные...

03Мар
2025

Что нас ждет в Apache AirFlow 3.0: обзор грядущего релиза

Автор Анна Вичуговав категории AirFlow

Apache AirFlow 3.0? AirFlow обучение, AirFlow примеры курсы, AirFlow для инженеров данных

Изоляция рабочих процессов и универсальное выполнение на удаленных машинах в обновленной клиент-серверной архитектуре, версионирование DAG, активы данных и изменения интерфейсов: главные новинки Apache AirFlow 3.0. Изоляция рабочих процессов и универсальное выполнение В марте 2025 года ожидается выпуск бета-релиза Apache AirFlow, а общедоступная версия (GA) выйдет в середине апреля. До этого...

07Фев
2025

Место Trino в архитектуре данных

Автор Анна Вичуговав категории Trino

Trino курсы примеры обучение, Trino для разработчика, Trino примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Почему Trino не заменит Flink, Spark и Airflow: границы применимости MPP-движка распределенного выполнения SQL-запросов к реляционным и нереляционным источникам данных. Почему Trino не заменит Flink, Spark и Airflow Хотя Trino отлично подходит для быстрой ad-hoc аналитики, позволяя SQL-запросами в реальном времени обращаться к различным базам данных, включая нереляционные хранилища и...

13Янв
2025

Переменные в Apache AirFlow: примеры и советы

Автор Анна Вичуговав категории AirFlow

Airflow переменные, курсы Airflow, обучение Airflow, настройка Airflow, Airflow для дата-инженера

Зачем нужны переменные в Apache AirFlow, какие они бывают, как создать переменную и использовать ее: примеры и рекомендации для эффективной дата-инженерии. Зачем нужны переменные в Apache AirFlow, и какие они бывают Чтобы хранить информацию, которая редко меняется, например, ключи API, пути к конфигурационным файлам, в Apache Airflow используются переменные. Переменные...

18Дек
2024

Очереди задач исполнителя Celery в Apache AirFlow

Автор Анна Вичуговав категории AirFlow

Airflow Celery, курсы Airflow, обучение Airflow, настройка Airflow, Airflow для дата-инженера

Как работает исполнитель Celery в Apache AirFlow, зачем ему очередь сообщений и каким образом это помогает масштабировать параллельное выполнение задач. Как работает исполнитель Celery в Apache AirFlow Именно исполнитель (Executor) в Apache Airflow отвечает за выполнение задач в рабочих процессах, определяя их локацию и последовательность, а также использование ресурсов. Хотя...

01Дек
2024

BranchPythonOperator vs ShortCircuitOperator в Apache AirFlow

Автор Анна Вичуговав категории AirFlow

Airflow ветвления DAG, обучение Airflow , курсы Airflow , курсы дата-инженеров, Airflow примеры курсы обучение

Чем BranchPythonOperator отличается от ShortCircuitOperator, что и когда выбирать для ветвления DAG в Apache Airflow: принципы работы и примеры использования. Ветвления DAG в Apache AirFlow с помощью операторов Чтобы поддерживать реализацию сложных конвейеров обработки данных, в Apache Airflow есть соответствующие механизмы ветвления графа задач, т.е. DAG (Directed Acyclic Graph). По...

20Ноя
2024

Декораторы в Apache AirFlow

Автор Анна Вичуговав категории AirFlow

Airflow TaskFlow API декораторы, обучение Airflow , курсы Airflow , курсы дата-инженеров, Airflow примеры курсы обучение

Что такое Python-декораторы в Airflow, зачем они нужны, какие они бывают и чем полезны: ликбез по TaskFlow API на практическом примере DAG. Что такое Python-декораторы в Airflow и какие они бывают Будучи написанным на Python, Apache Airflow использует именно этот язык в качестве средства разработки дата-конвейеров. После определения функции в...

03Ноя
2024

Dataset vs XCom: что выбрать для обмена данными между задачами в Apache AirFlow

Автор Анна Вичуговав категории AirFlow

Airflow XCom Dataset, обучение Airflow , курсы Airflow , курсы дата-инженеров, Airflow примеры курсы обучение

Чем обмен данными через XCom отличается от использования Dataset и какой из механизмов выбирать для обмена данными между задачами Apache Airflow: разбираем на практическом примере. Обмен данными через XCom В Apache Airflow есть несколько механизмов для обмена данными между задачами: XCom и набор данных (Dataset). При общей цели они предназначены...

30Окт
2024

Разработка и добавление своего плагина в Apache AirFlow: практический пример

Автор Анна Вичуговав категории AirFlow

Apache AirFlow примеры курсы обучение, Apache AirFlow развертывание администрирование оптимизация, Apache AirFlow для дата-инженеров и администраторов, Школа Больших данных Учебный центр Коммерсант

Как разработать свой плагин Apache AirFlow: пошаговое руководство с наглядной демонстрацией. Добавляем свои пункты меню в веб-интерфейс фреймворка и встраиваем пользовательскую HTML-страницу с новым эскизом Flask. Разработка своего плагина для AirFlow Вчера я рассказывала, как расширить функциональные возможности Apache AirFlow с помощью плагинов. Сегодня рассмотрим, как это сделать на практике....

29Окт
2024

Расширение возможностей Apache AirFlow с помощью плагинов

Автор Анна Вичуговав категории AirFlow

Зачем нужны плагины в Apache AirFlow, как их создать и встроить в пакетный оркестратор для внедрения пользовательских операторов, хуков, датчиков или интерфейсов взаимодействия с внешними системами. Плагины AirFlow Продолжая недавний разговор про добавление пользовательского кода в Apache AirFlow, сегодня разберемся, как расширить функциональные возможности этого ETL-оркестратора с помощью встраиваемых модулей...

23Окт
2024

Управление кодом в Apache AirFlow

Автор Анна Вичуговав категории AirFlow

Как добавить пользовательский код в Apache AirFlow и где его хранить: лучшие практики и рекомендации для дата-инженера с примером создания и импорта своего пакета. Как хранить общий код в AirFlow Недавно мы писали про сложности управления DAG в многопользовательской среде Apache AirFlow. Однако, даже когда речь идет про однопользовательскую работу...

10Окт
2024

Многопользовательское развертывание Apache AirFlow: проблемы и решения

Автор Анна Вичуговав категории AirFlow

Что не так с работой Apache AirFlow в многопользовательской среде, зачем предоставлять каждой команде свое развертывание ETL-фреймворка, каковы недостатки этого решения и как организовать мультитенантный кластер. Почему Apache Airflow не предназначен для многопользовательского использования В современной дата-инженерии Apache AirFlow стал наиболее популярным инструментом для пакетных ETL-процессов. Чтобы использовать его наиболее...

24Сен
2024

Настройка планировщика Apache AirFlow

Автор Анна Вичуговав категории AirFlow

Как устроен планировщик заданий Apache AirFlow, от чего зависит его производительность и какие конфигурации помогут ее улучшить: настройки, приемы, рекомендуемые значения и лучшие практики. Как работает планировщик Apache AirFlow Apache AirFlow как фреймворк оркестрации пакетных процессов включает несколько компонентов. Одним из них является планировщик (scheduler), который отслеживает все задачи и...

10Сен
2024

ETL по расписанию: 4 способа планирования запусков DAG в Apache AirFlow

Автор Анна Вичуговав категории AirFlow

Чем планирование запуска DAG в Apache AirFlow с объектом timedelta отличается от использования cron-выражений, в чем разница CronTriggerTimetable и CronDataIntervalTimetable, а также как создать собственный класс расписания. Объект timedelta vs cron-выражение: задание расписания запуска DAG в Apache AirFlow Apache AirFlow идеально подходит для классических пакетных ETL-сценариев, например, когда надо извлечь...

29Авг
2024

Сериализация в Apache AirFlow

Автор Анна Вичуговав категории AirFlow

Как Apache AirFlow сериализует и десериализует данные, зачем с версии 2 включена обязательная сериализация DAG в JSON, почему для пользовательской сериализации рекомендуются словари или примитивы и что поможет сократить нагрузку на базу данных метаданных через настройку параметров сериализации в конфигурационном файле фреймворка. Сериализация данных в Apache AirFlow Чтобы сохранить данные...

23Авг
2024

Apache AirFlow 2.10: что нового?

Автор Анна Вичуговав категории AirFlow

AirFlow обновления, обучение AirFlow , курсы AirFlow, курсы дата-инженер разработка DAG AirFlow, Школа Больших Данных Учебный Центр Коммерсант

24 августа вышел новый релиз Apache AirFlow. Знакомимся с новинками версии 2.10: гибкая настройка исполнителей для всей среды, конкретного DAG и отдельных задач, а также динамическое планирование набора данных и улучшения GUI. Гибкая настройка исполнителей Одной из самых главных новинок Apache AirFlow 2.10 стала конфигурация гибридного исполнения, позволяющая использовать несколько...

07Авг
2024

Отправка уведомлений в Apache AirFlow

Автор Анна Вичуговав категории AirFlow

AirFlow уведомления, обучение AirFlow , курсы AirFlow, курсы дата-инженер разработка DAG AirFlow, Школа Больших Данных Учебный Центр Коммерсант

Как оповестить дата-инженера о задержке и результате выполнения задачи или всего DAG пакетного конвейера обработки данных: варианты отправки уведомлений в Apache AirFlow и особенности их применения. Варианты отправки уведомлений в Apache AirFlow Даже когда конвейер обработки данных разработан и успешно протестирован, в ходе его эксплуатации в рабочей среде неизбежно возникают...

25Июл
2024

YAML вместо Python: LowCode-разработка DAG в Apache AirFlow с DAG Factory

Автор Анна Вичуговав категории AirFlow

AirFlow DAG Factory , обучение AirFlow , курсы AirFlow, курсы дата-инженер разработка DAG AirFlow, Школа Больших Данных Учебный Центр Коммерсант

Как написать DAG в Apache AirFlow без программирования, определив его конфигурацию в YAML-файле, и автоматически получить пакетный конвейер обработки данных с помощью Python-библиотеки DAG Factory. Демократизация разработки ETL-конвейеров или что такое DAG Factory в Apache AirFlow Хотя Apache AirFlow и так считается довольно простым фреймворком для оркестрации пакетных процессов и...