Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

13Сен
2023

Что такое OpenLineage и как это связано с Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

Apache Airflow OpenLineage, OpenLineage происхождение данных спецификация, Airflow OpenLineage для дата-инженера, инженерия данных Airflow, Airflow Airflow OpenLineage обзор, обучение Apache Airflow, курсы Airflow, как работает Apache Airflow, Школа Больших Данных Учебный Центр Коммерсант

Как Apache AirFlow отслеживает происхождение данных, какова структура спецификации OpenLineage, чем она схожа с OpenAPI, какие инструменты позволяют сформировать эту документацию и чем она полезна. Что такое OpenLineage В области инженерии данных и управления конвейерами их обработки очень важно понятие происхождения данных (Data Lineage). Это концепция отслеживания и визуализации данных...

09Сен
2023

Что такое SPIP: 4 предложения по улучшению Apache Spark

Автор Анна Вичуговав категории Spark, Блог

улучшения и развитие Apache Spark , Apache Spark для разработчиков и дата-инженеров примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, какие улучшения Apache Spark опубликованы в 2023 году и как подать свое предложение по улучшению самого популярного вычислительного движка в стеке Big Data. Что такое SPIP и как подать свое предложение по улучшению фреймворка В любом продукте помимо ошибок есть также предложения по улучшению. В Apache Spark они...

02Сен
2023

Apache AirFlow vs Spark в Databricks для оркестрации рабочих процессов

Автор Анна Вичуговав категории AirFlow, Spark, Блог

Apache Spark AirFlow дата-инженер примеры курсы обучение, анализ данных Spark, Spark дата-инженерия Apache AirFlow примеры курсы обучение, Spark Databrics AirFlow сравнение что лучше, оркестрация процессов с Apache Spark в Databricks и AirFlow примеры курсы обучение, обучение большим данным, курсы дата-инженер аналитик Big Data, Школа Больших Данных Учебный Центр Коммерсант

Чем отличается оркестрация ETL-процессов в Databricks и Apache AirFlow: принципы работы, достоинства и недостатки, а также что выбирать дата-инженеру для решения практических задач. Apache AirFlow vs Spark в Databricks: сходства и отличия Облачная платформа Databricks, основанная на Apache Spark, предлагает пользователям единую среду для создания, запуска и управления различными рабочими...

30Авг
2023

Программируй на английском: ИИ-SDK для PySpark от Databricks

Автор Анна Вичуговав категории Machine Learning, Spark, Блог

LLM AI MLOps Spark, MLOPS PySpark-AI примеры курсы обучение, Spark примеры курсы обучение AI ИИ, PySpark-AI English SDK Databricks курсы Machine Learning для дата-инженеров и аналитиков, обучение Machine Learning Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Как получать результаты обработки данных с помощью Apache Spark, адресуя ИИ бизнес-запросы на английском языке: знакомимся с English SDK от Databricks. Настоящий Low Code с PySpark-AI. English SDK for Apache Spark и PySpark-AI: как это работает Большие языковые модели (LLM, Large Language Model), основанные на генеративных нейросетях, применимы не только...

19Авг
2023

Отладка PySpark-приложений: журнал регистрации событий

Автор Анна Вичуговав категории Spark, Блог

отладка тестирование логирование PySpark, Spark логирование отладка примеры курсы обучение, Apache Spark для разработчиков и дата-инженеров примеры, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим особенности отладки PySpark-приложений: как Python-код исполняется в JVM, какие сложности возникают у разработчика при тестировании и исправлении ошибок в программе, написанной локально и запускаемой в кластере, а также как настроить вывод событий в лог-файл. Запуск и выполнение PySpark-кода Хотя Apache Spark и имеет Python API, позволяя писать код...

18Авг
2023

Apache AirFlow 2.7: обзор августовского релиза

Автор Анна Вичуговав категории AirFlow, Блог

Apache Airflow для дата-инженера и администратора кластера, администрирование Airflow , Airflow 2.7 обзор, новинки Apache Airflow, Apache Airflow DAG GUI, обучение Apache Airflow, курсы Airflow, как работает Apache Airflow, исполнители задач Airflow, Школа Больших Данных Учебный Центр Коммерсант

14 августа 2023 года вышел очередной релиз Apache AirFlow . Разбираем его самые главные новые возможности, улучшения и исправления ошибок: отказ от Python 3.7, задачи установки/демонтажа, встроенная поддержка спецификации OpenLineage, обновления интерфейса, упрощение управления сложными зависимостями и другие фичи Apache AirFlow 2.7. Задачи установки/демонтажа Apache AirFlow 2.7 содержит более 35...

10Авг
2023

Регулярные выражения в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

регулярные выражения PySpark, Spark SQL примеры курсы обучение, Apache Spark Для аналитиков и дата-инженеров примеры, Школа Больших Данных Учебный центр Коммерсант

Каждый дата-инженер и аналитик данных активно использует регулярные выражения для поиска значений в тексте по заданному шаблону. Сегодня рассмотрим, как это сделать с функциями regexp_replace(), rlike() и regexp_extract в Apache Spark на примере небольшого PySpark-приложения. Как работает функция regexp_replace() Регулярным выражением называется последовательность символов, задающая шаблон соответствия в тексте. Например,...

09Авг
2023

Разгружаем PostgreSQL: ETL-конвейер с Apache AirFlow в Google Colab

Автор Анна Вичуговав категории AirFlow, Блог

AirFlow PostreSQL, DAG Apache AirFlow PostreSQL Colab пример, Apache AirFlow GUI Google Colab, обучение Apache AirFlow, курсы дата-инженеров, обучение разработчиков Big Data, разработка AirFlow конвейеров, Школа Больших Данных Учебный Центр Коммерсант

Сегодня усложним пример из прошлой статьи с простым ETL-конвейером, который добавлял в базу данных интернет-магазина новые записи о клиентах, сгенерированные с помощью библиотеки Faker. Разбираем, как удалить из PostgreSQL данные об успешно доставленных заказах за прошлый месяц, предварительно сохранив их в JSON-файл с многоуровневой структурой. Пишем и запускаем DAG Apache...

06Авг
2023

Под капотом PyFlink: как работает Python-интерфейс Apache Flink

Автор Анна Вичуговав категории Flink, Блог

PyFlink Java JVM, Apache Flink Python, обучение Flink, курсы Flink, Flink для разработчиков Python, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Как и большинство Big Data фреймворков, Apache Flink имеет Python API, позволяя разработчикам высоконагруженных потоковых приложений писать код на этом популярном языке программирования. Однако, Flink-задание выполняется в JVM, поэтому сам фреймворк транслирует Python-код в Java. Разбираемся, в чем особенности этого многоступенчатого процесса. Из Python в Java: как устроен API PyFlink...

03Авг
2023

ETL для PostgreSQL с Apache AirFlow в Google Colab

Автор Анна Вичуговав категории AirFlow, Блог

Сегодня реализуем простой ETL-конвейер для реляционной СУБД PostgreSQL, запустив Apache AirFlow в интерактивной среде Google Colab. Пример DAG из 3-х задач: получить количество строк в одной из таблиц БД, сгенерировать новые строки и записать их, не нарушив ограничений уникальности первичного ключа. Постановка задачи Возьмем в качестве примера базу данных для...

27Июл
2023

4 главных недостатка запуска Apache AirFlow в Colab

Автор Анна Вичуговав категории AirFlow, Блог

DAG Apache AirFlow Colab пример, Apache AirFlow GUI Google Colab, обучение Apache AirFlow, курсы дата-инженеров, обучение разработчиков Big Data, разработка AirFlow конвейеров, Школа Больших Данных Учебный Центр Коммерсант

Медленно, муторно, небезопасно: что не так с запуском Apache AirFlow в интерактивной среде Google Colab и можно ли с этим смириться. Разбираем на личном опыте. Трудности работы с Apache AirFlow в среде Google Colab О том, что можно настроить AirFlow в Google Cloud Platform, и запускать DAG-файлы из Colab, используя...

21Июл
2023

Как добавить свое соединение в AirFlow на Colab: DAG с отправкой данных в Телеграм-чат

Автор Анна Вичуговав категории AirFlow, Блог

Телеграм AirFlow, DAG Apache AirFlow Colab пример, Apache AirFlow GUI Google Colab, обучение Apache AirFlow, курсы дата-инженеров, обучение разработчиков Big Data, разработка AirFlow конвейеров, Школа Больших Данных Учебный Центр Коммерсант

В этой статье рассмотрим, как добавить собственное соединение в Apache AirFlow, запустив его в интерактивной среде Colab с помощью Python-кода, и использовать его при отправке результатов выполнения задач DAG в свой чат-бот Телеграм. Постановка задачи: DAG с отправкой данных в Телеграм Недавно я подробно рассказывала, как настроить AirFlow в Google...

14Июл
2023

Как запустить DAG AirFlow в Google Colab: простой пример

Автор Анна Вичуговав категории AirFlow, Блог

Сегодня рассмотрим, как выполнить DAG Apache AirFlow, запустив его в интерактивной среде Colab и получив доступ в веб-GUI этого фреймворка, создав туннель локального хоста на публичный URL с помощью утилиты ngrok. В качестве примера построим простой конвейер из 5 задач. Запуск Apache AirFlow в Google Colab Чтобы не повторять содержимое...

03Июл
2023

Как запустить Apache AirFlow в Google Colab с ngrok

Автор Анна Вичуговав категории AirFlow, Блог

Apache AirFlow GUI Google Colab, обучение Apache AirFlow, курсы дата-инженеров, обучение разработчиков Big Data, разработка AirFlow конвейеров, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, как запустить Apache AirFlow на мощностях Google в интерактивной среде Colab и войти в веб-GUI этого фреймворка, создав туннель локального хоста на публичный URL с помощью утилиты ngrok. Запуск Apache AirFlow в Google Colab Хотя Google Colab является мощным облачным окружением для запуска и написания Python-кода, выполнение написанных...

02Июл
2023

Обработка ошибок в потребителе Kafka с try-except: пример

Автор Анна Вичуговав категории Kafka, Блог

потребитель Kafka обработка исключений примеры курсы обучение, DLQ Kafka, очередь недоставленных сообщений в Kafka примеры курсы обучение, курсы по Apache Kafka, Kafka для разработчиков, обучение Kafka, Apache Kafka Dead Letter Queue, обучение большим данным, курсы Big Data, Школа Больших Данных Учебный Центр Коммерсант

Самый простой способ организовать обработку и логирование ошибок в приложении-потребителе, чтобы продолжать считывание из Apache Kafka, даже если продюсер изменил структуру полезной нагрузки сообщения. Публикация данных в Kafka Напомним, Apache Kafka, в отличие от RabbitMQ, не позволяет организовать очередь недоставленных сообщений (DLQ, Dead Letter Queue) средствами самой платформы, о чем мы...

25Июн
2023

5 полезных инструментов для работы с Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

ADA Ditto Amundsen gusty Viewflow AirFlow, AirFlow Примеры курсы обучение, дата-инженер курсы примеры Apache AirFlow, инженерия данных с Apache AirFlow, Школа Больших Данных Учебный Центр Коммерсант

Будучи популярным фреймворком для оркестрации пакетных процессов обработки Apache AirFlow образует вокруг себя целую экосистему. Сегодня познакомимся с некоторыми инструментами, которые пригодятся дата-инженеру для проектирования и отладки конвейеров данных: ADA, Ditto, Amundsen, gusty и Viewflow. Аналитика системных метрик Apache AirFlow с ADA и Amundsen ADA — это микросервис, созданный для...

16Июн
2023

Отладка конвейеров Apache AirFlow с on_failure_callback()

Автор Анна Вичуговав категории AirFlow, Блог

отладка и мониторинг DAG задачи Airflow, обратные вызовы Airflow, Airflow для дата-инженера, конвейеры обработки данных Airflow, регистрация и мониторинг событий Airflow, on_failure_callback Airflow, курсы Airflow, Airflow для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как использовать функции обратного вызова для отладки конвейера обработки данных в Apache AirFlow, а также отправки оповещений об ошибках. Полезные примеры регистрации и мониторинга сбоев на уровне задачи и всего DAG с on_failure_callback(). Польза обратных вызовов Apache AirFlow на примере on_failure_callback По мере роста и усложнения конвейеров данных, построенных с...

12Июн
2023

Графовые алгоритмы без графовых баз данных: поиск сообществ с Networkx

Автор Анна Вичуговав категории Machine Learning, Блог

графы примеры курсы обучение, обучение анализ графов примеры графовые алгоритмы, курсы дата-аналитик Python примеры обучение, обучение аналитике больших данных, Python задачи на графах бизнес приложения примеры, Python графы Networkx примеры курсы обучение, обучение большим данным Dayta Science аналитика больших данных графы, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы разбирали, чем внутренне устройство графовых баз данных отличается от реляционных. Поэтому именно графовые базы целесообразно использовать для анализа больших графовов. Однако, на малых датасетах вполне можно обойтись и Python-библиотекой Networkx, что мы и рассмотрим далее на примере анализа банковских транзакций. Python-скрипт поиска сообществ в графе с библиотекой...

11Июн
2023

Как считать данные из Apache Kafka с определенного момента: пишем Python-скрипт

Автор Анна Вичуговав категории Kafka, Блог

Python-продюсер и потребитель Kafka, Kafka-Python, дата-инженер разработчик Apache Kafka примеры курсы обучение, обучение Apache Kafka, курсы Apache Kafka, Apache Kafka потребление сообщений курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Иногда возникает потребность в повторном чтении данных из Apache Kafka с определенного момента времени. Сегодня рассмотрим, как это сделать, написав простенький Python-скрипт потребления из раздела топика. Публикация данных в Kafka В качестве примера возьмем ранее рассмотренный в этой статье кейс приема потока обращений в интернет-магазин. Обращения могут представлять собой заявки...

09Июн
2023

Apache AirFlow 2.6: что нового?

Автор Анна Вичуговав категории AirFlow, Блог

Apache AirFlow, очереди задач Apache AirFlow, AirFlow executors, Apache Airflow для дата-инженера, Airflow 2.6 обзор, новинки Apache Airflow, KubernetesExecutor Apache Airflow, обучение Apache Airflow, курсы Airflow, как работает Apache Airflow, исполнители задач Airflow, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про устранение зависших в очереди задач в Apache AirFlow 2.6. Сегодня разберемся с другими новинками этого релиза, которые особенно важны для дата-инженера: настраиваемые поля DAG, добавление собственных уведомлений, управление ресурсами, кластеризация исполнителей Kubernetes и еще множество полезных возможностей. Главные новинки и исправления весенних выпусков Apache AirFlow в...