Публикации с меткой Python

20Май
2025

Не только Python: Go SDK в Apache AirFlow 3.0

курсы дата-инженеров Airflow, Airflow 3.0 примеры курсы обучение, Школа Больших Данных

Зачем в Apache AirFlow 3.0 добавлена поддержка Go и как работает этот экспериментальный SDK: возможности и ограничения разработки и запуска задач на компилируемом языке программирования. Мультиязычность в Apache AirFlow 3.0 Одной из ключевых новинок недавно выпущенного Apache AirFlow 3.0, о котором мы писали здесь, стала его мультиязычность. Теперь фреймворк поддерживает...

05Апр
2025

AI SDK для Apache AirFlow: оркестрация LLM-задач

Автор Анна Вичуговав категории AirFlow, Machine Learning

курсы дата-инженеров Airflow AI, искусственный интеллект в инженерии данных, ИИ LLM Airflow, Школа Больших Данных

Как LLM упрощают работу дата-инженера: новые декораторы TaskFlow API в Apache Airflow для внедрения больших языковых моделей в DAG. Обзор Airflow AI SDK на основе Pydantic AI с практическим примером про анализ отзывов. ИИ в инженерии данных Мультимодальность современных инструментов машинного обучения, когда одна ML-модель может принимать на вход данные...

10Мар
2025

Мультиязычные конвейеры обработки данных в Apache Beam

Автор Анна Вичуговав категории Beam

Apache Beam примеры курсы обучение, Beam для дата-инженера, примеры курсы обучение дата-инженеров, инженерия больших данных, Школа Больших Данных Учебный Центр Коммерсант

Можно ли при разработке конвейера Apache Beam использовать преобразования из SDK разных языков программирования и как это сделать, избежав типичных ошибок. Кросс-языковые преобразования и мультиязычные конвейеры Beam Как и многие популярные фреймворки для создания распределенных приложений обработки данных (Apache Flink, Spark и другие движки), Apache Beam поддерживает несколько языков. В...

03Мар
2025

Что нас ждет в Apache AirFlow 3.0: обзор грядущего релиза

Автор Анна Вичуговав категории AirFlow

Apache AirFlow 3.0? AirFlow обучение, AirFlow примеры курсы, AirFlow для инженеров данных

Изоляция рабочих процессов и универсальное выполнение на удаленных машинах в обновленной клиент-серверной архитектуре, версионирование DAG, активы данных и изменения интерфейсов: главные новинки Apache AirFlow 3.0. Изоляция рабочих процессов и универсальное выполнение В марте 2025 года ожидается выпуск бета-релиза Apache AirFlow, а общедоступная версия (GA) выйдет в середине апреля. До этого...

26Фев
2025

PemJa вместо Py4J в Apache Flink для потокового режима выполнения Python UDF

Автор Анна Вичуговав категории Flink

Flink обучение курсы примеры, Python в Apache Flink, PyFlink примеры разработка

Как библиотека PemJa реализует потоковый режим выполнения Flink-заданий, где UDF-функции Python выполняются в JVM, ускоряя обработку данных за счет исключения межпроцессного взаимодействия. Выполнение PyFlink-приложения в JVM Хотя Flink-приложение работает в JVM-среде, фреймворк позволяет писать код не только на Java и Scala. О том, как работает PyFlink, Python-интерфейс для Apache Flink,...

25Фев
2025

Трудности перевода: реализация API Python в Java-приложениях

Автор Анна Вичуговав категории Flink, Spark

Flink, Python Java, Python, Spark, PySpark, PyFlink

Почему можно программировать на Python для разработки JVM-приложений: как Java-фреймворки с Python API, такие как Apache Spark и Flink, транслируют Python-код, организуя межпроцессное взаимодействие. Способы трансляции Python-кода для исполнения в JVM Большинство фреймворков для разработки высоконагруженных приложений написаны на Java. Например, Apache Spark или Flink. При этом они предоставляют Python...

19Фев
2025

Тонкости параллелизма в Apache Beam

Автор Анна Вичуговав категории Beam

Как Apache Beam распараллеливает потоковые и пакетные конвейеры обработки данных, добавляя собственные операции к пользовательским преобразованиям. Смотрим на примере простого пакетного конвейера с ограниченным параллелизмом. Распараллеливание операций в Apache Beam Напомним, Apache Beam представляет собой унифицированную модель определения пакетных и потоковых конвейеров параллельной обработки данных, которую можно запустить в любой...

05Фев
2025

Автогенерация AsyncAPI-спецификации для Kafka с FastStream: практический пример

Автор Анна Вичуговав категории Kafka

Kafka курсы примеры обучение, Kafka для администратора кластера, Kafka примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как получить спецификацию AsyncAPI из кода с помощью декораторов функций публикации и потребления сообщений средствами Python-библиотеки FastStream: простой пример потокового конвейера на Apache Kafka. Еще раз про FastStream и спецификацию AsyncAPI Вчера я рассказывала про Python-библиотеку FastStream для разработки потоковых конвейеров на Apache Kafka, RabbitMQ, NATS и Redis. Помимо мощного,...

04Фев
2025

FastStream для работы с Kafka: практический пример

Автор Анна Вичуговав категории Kafka

Чем хороша Python-библиотека FastStream и как ее использовать для потоковой публикации данных в Apache Kafka: практический пример асинхронной отправки JSON-сообщений. О библиотеке FastStream Для Python-разработчиков есть довольно много библиотек, позволяющих взаимодействовать с Apache Kafka: kafka-python, confluent-kafka, Quix Streams и другие клиенты. О сравнении kafka-python и confluent-kafka я писала здесь, а...

24Янв
2025

Битва движков унифицированной обработки: Apache Beam vs Flink

Автор Анна Вичуговав категории Beam, Flink

Apache Flink примеры курсы обучение, Flink для дата-инженера, Apache Beam примеры курсы обучение, Beam для дата-инженера, примеры курсы обучение дата-инженеров, инженерия больших данных, Школа Больших Данных Учебный Центр Коммерсант

Чем Apache Beam отличается от Apache Flink, что и когда выбирать, зачем их совмещать для реализации сложных конвейеров обработки больших объемов данных с помощью распределенных stateful-приложений, и как это работает. Сходства и отличия Apache Beam и Flink Хотя Apache Beam является унифицированной моделью определения пакетных и потоковых конвейеров параллельной обработки данных,...

22Янв
2025

Легковесная разработка унифицированных конвейеров Apache Beam с YAML API

Автор Анна Вичуговав категории Beam

Как написать конвейер обработки данных Apache Beam, задав цепочку преобразований в YAML-конфигурации: практический пример фильтрации и агрегации платежей из CSV-файла. Пример разработки и запуска YAML-конвейера Apache Beam в Google Colab Недавно я рассказывала про Apache Beam – унифицированную модель определения пакетных и потоковых конвейеров параллельной обработки данных, которую можно запустить...

15Янв
2025

Разработка унифицированных конвейеров обработки данных с Apache Beam

Автор Анна Вичуговав категории Beam, Machine Learning

Что такое Apache Beam, зачем он нужен, чем полезен дата-инженеру и как его использовать: архитектура, принципы работы и примеры построения пакетных и потоковых конвейеров обработки данных. Что такое Apache Beam и зачем он нужен Хотя выбор технологического стека – один из важнейших вопросов архитектурного проектирования, иногда требуется универсальное решение построения...

13Янв
2025

Переменные в Apache AirFlow: примеры и советы

Автор Анна Вичуговав категории AirFlow

Airflow переменные, курсы Airflow, обучение Airflow, настройка Airflow, Airflow для дата-инженера

Зачем нужны переменные в Apache AirFlow, какие они бывают, как создать переменную и использовать ее: примеры и рекомендации для эффективной дата-инженерии. Зачем нужны переменные в Apache AirFlow, и какие они бывают Чтобы хранить информацию, которая редко меняется, например, ключи API, пути к конфигурационным файлам, в Apache Airflow используются переменные. Переменные...

26Дек
2024

Stateful-преобразование потокового датафрейма из Apache Kafka с Quix Streams

Автор Анна Вичуговав категории Kafka

Kafka курсы примеры обучение, Kafka для разработчика, Kafka примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как Quix Streams реализует отказоустойчивую stateful-обработку потоковых датафреймов из топиков Kafka с помощью встроенного key-value хранилища состояний RocksDB: практический пример. Потоковый stateful-конвейер на Apache Kafka и Quix Streams Продолжая знакомиться с библиотекой Quix Streams, которая позволяет получить потоковые датафреймы из данных в топиках Kafka, сегодня разберем, как здесь организована работа...

24Дек
2024

Потоковый конвейер на Apache Kafka с библиотекой Quix Streams

Автор Анна Вичуговав категории Kafka

Быстрая и простая обработка потоков сообщений в одном приложении с Quix Streams вместо Kafka Streams: практический пример на Python с обогащением и фильтрацией данных. Практический пример потокового конвейера с Apache Kafka и Quix Streams Сегодня я познакомилась с Quix Streams - очередной замечательной библиотекой для создания потоковых конвейеров обработки данных...

18Дек
2024

Очереди задач исполнителя Celery в Apache AirFlow

Автор Анна Вичуговав категории AirFlow

Airflow Celery, курсы Airflow, обучение Airflow, настройка Airflow, Airflow для дата-инженера

Как работает исполнитель Celery в Apache AirFlow, зачем ему очередь сообщений и каким образом это помогает масштабировать параллельное выполнение задач. Как работает исполнитель Celery в Apache AirFlow Именно исполнитель (Executor) в Apache Airflow отвечает за выполнение задач в рабочих процессах, определяя их локацию и последовательность, а также использование ресурсов. Хотя...

01Дек
2024

BranchPythonOperator vs ShortCircuitOperator в Apache AirFlow

Автор Анна Вичуговав категории AirFlow

Airflow ветвления DAG, обучение Airflow , курсы Airflow , курсы дата-инженеров, Airflow примеры курсы обучение

Чем BranchPythonOperator отличается от ShortCircuitOperator, что и когда выбирать для ветвления DAG в Apache Airflow: принципы работы и примеры использования. Ветвления DAG в Apache AirFlow с помощью операторов Чтобы поддерживать реализацию сложных конвейеров обработки данных, в Apache Airflow есть соответствующие механизмы ветвления графа задач, т.е. DAG (Directed Acyclic Graph). По...

20Ноя
2024

Декораторы в Apache AirFlow

Автор Анна Вичуговав категории AirFlow

Airflow TaskFlow API декораторы, обучение Airflow , курсы Airflow , курсы дата-инженеров, Airflow примеры курсы обучение

Что такое Python-декораторы в Airflow, зачем они нужны, какие они бывают и чем полезны: ликбез по TaskFlow API на практическом примере DAG. Что такое Python-декораторы в Airflow и какие они бывают Будучи написанным на Python, Apache Airflow использует именно этот язык в качестве средства разработки дата-конвейеров. После определения функции в...

03Ноя
2024

Dataset vs XCom: что выбрать для обмена данными между задачами в Apache AirFlow

Автор Анна Вичуговав категории AirFlow

Airflow XCom Dataset, обучение Airflow , курсы Airflow , курсы дата-инженеров, Airflow примеры курсы обучение

Чем обмен данными через XCom отличается от использования Dataset и какой из механизмов выбирать для обмена данными между задачами Apache Airflow: разбираем на практическом примере. Обмен данными через XCom В Apache Airflow есть несколько механизмов для обмена данными между задачами: XCom и набор данных (Dataset). При общей цели они предназначены...

31Окт
2024

Пользовательские функции Apache Spark: Pandas UDF, applyInPandas и mapInPandas

Автор Анна Вичуговав категории Spark

Как применить пользовательскую функцию Python к объектам pandas в распределенной среде Apache Spark. Варианты использования Pandas UDF, applyInPandas() и mapInPandas() на практических примерах. Разница между Pandas UDF, applyInPandas и mapInPandas в Apache Spark Недавно я показывала пример сравнения быстродействия метода applyInPandas() с функцией apply() библиотеки pandas. Однако, помимо applyInPandas() в...