Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

09Июл
2024

Spark Python для дата-инженеров и разработчиков, Spark PySpark, параллельная обработка Spark, Spark примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Почему параллельное выполнение заданий в Apache Spark зависит от языка программирования и как можно обойти однопоточную природу Python в PySpark. Что не так с параллельным выполнением заданий PySpark и как это исправить? Apache Spark позволяет писать распределенные приложения благодаря инструментам для распределения ресурсов между вычислительными процессами. В режиме кластера каждое...

01Июл
2024

OpenID, Flask-AppBuilder и CVE-2024-25128 в Apache AirFlow

Автор Анна Вичуговав категории AirFlow

аутентификация безопасность Apache AirFlow, курсы Apache AirFlow для дата-инженера, Apache AirFlow, инженерия данных примеры курсы обучение, ETL с Apache AirFlow, AirFlow для разработчика, Школа Больших Данных Учебный Центр Коммерсант

Чем уязвимость устаревшего метода аутентификации OpenID в Flask-AppBuilder опасна для Apache AirFlow и как это исправить? Обзор уязвимости CVE-2024-25128. Уязвимости OpenID для FAB в Apache AirFlow В конце февраля 2024 выяснилось, что в прошлом релизе Apache AirFlow 2.8, вышедшем 14 декабря прошлого года, обнаружилась критическая уязвимость, набравшая более 9 баллов...

22Июн
2024

Чего ждать от Apache Spark 4.0: обзор свежего предрелиза

Автор Анна Вичуговав категории Spark

Spark для дата-инженеров и разработчиков, обзор нового релиза Apache Spark, новинки Spark 4.0, Spark примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

3 июня 2024 года вышел предварительный релиз Apache Spark 4.0. Эта версия еще не считается стабильной и предназначена только для ознакомления. Поэтому даже полноценные release notes по ней пока отсутствуют. Тем не менее, сегодня познакомимся с наиболее интересными фичами этого выпуска: новый тип данных VARIANT, API источника данных Python и...

05Июн
2024

Планы выполнения запросов при работе с API pandas в Apache Spark

Автор Анна Вичуговав категории Spark

обучение Spark, PySpark Spark Pandas, pandas-on-spark примеры курсы обучение, курсы Spark для разработчиков, Школа Больших Данных Учебный Центр Коммерсант

Для чего смотреть планы выполнения запросов при работе с API pandas в Spark и как это сделать: примеры использования метода spark.explain() и его аргументов для вывода логических и физических планов. Разбираем на примере PySpark-скрипта. API pandas и физический план выполнения запроса в Apache Spark Мы уже писали, что PySpark, API-интерфейс...

13Май
2024

Пример потокового конвейера из Kafka в Elasticsearch на платформе Decodable

Автор Анна Вичуговав категории Kafka, NoSql

Kafka курсы примеры обучение, NoSQL обучение примеры курсы, инженерия данных с Elasticsearch и Kafka, использование Kafka Elasticsearch pipeline, интеграция Kafka пример, Школа Больших Данных Учебный Центр Коммерсант

Практическая демонстрация потокового SQL-конвейера, который преобразует данные, потребленные из Apache Kafka, и записывает результаты в Elasticsearch, используя Debezium-коннекторы и задания Apache Flink в облачной платформе Decodable. Потребление сообщений из Apache Kafka Я уже показывала пример интеграции Apache Kafka и Elasticsearch с помощью sink-коннектора, а также конвейер с ClickHouse Cloud. Сегодня...

11Май
2024

Интеграция ClickHouse с Apache AirFlow

Автор Анна Вичуговав категории AirFlow, ClickHouse

Чем полезна интеграция ClickHouse с Apache Airflow и как ее реализовать: операторы в пакете провайдера и плагине на основе Python-драйвера. Принципы работы и примеры использования. 2 способа интеграции ClickHouse с AirFlow Продолжая разговор про интеграцию ClickHouse с другими системами, сегодня рассмотрим, как связать эту колоночную СУБД с мощным ETL-движком Apache...

25Апр
2024

TaskFlow API и традиционные операторы Apache AirFlow: совместное использование

Автор Анна Вичуговав категории AirFlow

Apache AirFlow API TaskFlow, AirFlow для дата-инженера, обучение AirFlow, курсы AirFlow, курсы дата-инженеров, обучение инженеров данных, Школа Больших Данных Учебный Центр Коммерсант

Чем API TaskFlow отличается от традиционных операторов Apache Airflow, можно ли их использовать вместе и как это сделать для более эффективной передачи данных между задачами DAG с помощью механизма XCom: несколько примеров. Что такое API TaskFlow в Apache Airflow Чтобы реализовать конвейер обработки данных в Apache AirFlow, можно использовать традиционные...

24Апр
2024

Сравнение датафреймов в Apache Spark на примере PySpark-кода

Автор Анна Вичуговав категории Spark

Apache Spark для разработчика примеры курсы обучение, PySpark тестирование assert примеры, PySpark Spark дата-инженерия примеры, Школа Больших Данных Учебный центр Коммерсант

Что такое assert, зачем это нужно в тестировании и отладке, как эта конструкция применяется для сравнения датафреймов в PySpark: примеры работы функций assertDataFrameEqual() и assertSchemaEqual() в Apache Spark. Что такое assert: конструкция тестирования При разработке PySpark-приложения дата-инженер чаще всего оперирует такими структурами данных, как датафрейм. Датафрейм (DataFrame) – это распределенная...

23Апр
2024

Публикация и потребление AVRO-сообщений с реестром схем Apache Kafka: пример на Python

Автор Анна Вичуговав категории Kafka

Kafka Schema Registry, реестр схем Kafka Confluent пример, обучение Kafka, курсы по Kafka, Kafka Для инженеров данных, Школа Больших Данных Учебный Центр Коммерсант

Версионирование схемы сообщений в формате AVRO с использованием реестра схем Apache Kafka и библиотеки confluent_kafka: практический пример на Python в Google Colab. Публикация сообщений в Kafka с использованием реестра схем Недавно я показывала пример использования реестра схем (Schema Registry) Apache Kafka при публикации сообщений. Сегодня рассмотрим версионирование схемы данных в...

09Мар
2024

Как создать дэшборд NeoDash для графовой базы данных Neo4j

Автор Анна Вичуговав категории Neo4j, NoSql

Neo4j NeoDash примеры, Cypher-запросы к Neo4j , дэшборд NeoDash, анализ и визуализация графов, аналитика больших данных с графами, задачи на графах в бизнесе пример, Школа Больших Данных Учебный Центр Коммерсант

Создаем визуализации Cypher-запросов к своему графу в графовой базе данных Neo4j с помощью дэшборда NeoDash на примере анализа финансовых транзакций в банке. Python-генерация графа в Neo4j с фейковыми данными Поскольку NoSQL-СУБД Neo4j отлично подходит для задач графовой аналитики больших данных благодаря своей нативно графовой модели хранения данных, ее можно использовать...

08Мар
2024

Тестирование доступности веб-сайта с помощью http-хуков Apache AirFlow

Автор Анна Вичуговав категории AirFlow

Apache AirFlow HTTPHook, хуки AirFlow, обучение AirFlow, курсы AirFlow, курсы дата-инженеров, обучение инженеров данных, Школа Больших Данных Учебный Центр Коммерсант

Сегодня я покажу, как проверить доступность веб-сайта с помощью http-хука в Apache AirFlow и отправить результаты проверки в Телеграм-бот. Еще раз про хуки и соединения Apache AirFlow Доступность системы является ключевым свойством информационной безопасности. Проверить, что веб-сервис доступен, можно по статусу HTTP-ответа на GET-запрос. Чтобы делать такую проверку периодически, т.е....

29Фев
2024

Как сменить SQLLite на PostgreSQL для бэкенда Apache AirFlow

Автор Анна Вичуговав категории AirFlow

администрирование Apache AirFlow, бэкенд Apache AirFlow, база данных метаданных Apache AirFlow, управление Apache AirFlow, обучение Apache AirFlow, курсы по AirFlow, обучение дата-инженеров, инженерия данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Зачем менять базу данных метаданных в производственном развертывании Apache AirFlow и как это сделать: пошаговое руководство для дата-инженера с примерами и рекомендациями. 5 шагов перехода от SQLLite к PostgreSQL: миграция базы данных метаданных Apache AirFlow Чтобы планировать и запускать конвейеры обработки данных, Apache AirFlow хранит сведения о задачах, DAG, исполнителях,...

28Фев
2024

Как использовать реестр схем Kafka Confluent: пример Python-продюсера

Автор Анна Вичуговав категории Kafka

Сегодня я покажу пример использования реестра схем для Apache Kafka на платформе Upstash, API которого полностью совместим со Schema Registry от Confluent. Пишем продюсер на Python, используя библиотеку confluent_kafka. Еще раз о том, что такое реестр схем Kafka и чем он полезен Реестр схем (Schema Registry) – это модуль Confluent...

19Фев
2024

Databricks Arc vs Splink: автоматическое связывание данных в промышленных масштабах

Автор Анна Вичуговав категории Machine Learning

связывание данных Arc Splink , обработка больших данных, глубокий анализ данных, качество больших данных, Школа Больших Данных Учебный Центр Коммерсант

Зачем Databricks выпустил Arc, чем это отличается от Splink, и как эти инструменты позволяют решать проблему связывания данных с помощью алгоритмов машинного обучения. Как работает связывание данных Продолжая разговор про качество данных и разрешение сущностей (entity resolution) , сегодня подробно рассмотрим этап связывания записей с использованием логики на основе правил...

16Фев
2024

Аутентификация и авторизация пользователей в Apache AirFlow

Автор Анна Вичуговав категории AirFlow

администрирование Apache AirFlow, безопасность Apache AirFlow, аутентификация и авторизация пользователей Apache AirFlow, управление пользователями Apache AirFlow, обучение Apache AirFlow, курсы по AirFlow, обучение дата-инженеров, инженерия данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Зачем ограничивать доступ к папке с DAG и как это сделать: категории и роли пользователей в Apache AirFlow, способы входа в систему и конфигурации для настройки прав. Категории и роли пользователей Apache AirFlow Поскольку основным источником угрозы почти для любой информационной системы являются люди, при разработке методов обеспечения безопасности надо,...

26Янв
2024

5 советов начинающему дата-инженеру по AirFlow: личный опыт

Автор Анна Вичуговав категории AirFlow

обучение Apache AirFlow, курсы по AirFlow, обучение дата-инженеров, инженерия данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Как спроектировать DAG и выбрать способ обмена данными между задачами, где определить подключения и запросы к БД и что поможет избежать ада Python-зависимостей при использовании Apache AirFlow. Сегодня я расскажу своем личном опыте наступания на грабли при работе с этим оркестратором batch-процессов и уроках, которые из этого вынесла. 5 советов...

21Янв
2024

Как настроить свой Python-процессор Apache NiFi

Автор Анна Вичуговав категории NiFi

Что необходимо реализовать в собственном процессоре, написанном на Python, чтобы запускать его в Apache NiFi. Классы и методы для настройки свойств, а также отношения и состояния жизненного цикла. Классы и методы для настройки свойств Предустановленные обработчики данных или процессоры (processor) Apache NiFi, написанные на Java, можно настроить прямо в GUI,...

14Янв
2024

Как написать свой процессор Apache NiFi на Python: обзор 2-х API

Автор Анна Вичуговав категории NiFi

Apache NiFi для дата-инженера, инженерия данных с Apache NiFi, Apache NiFi примеры курсы обучение, Python в Apache NiFi, Школа больших Данных Учебный центр Коммерсант

Продолжая разговор про рассмотренные в прошлой статье принципы взаимодействия процессов Python с Java, на которой написан Apache NiFi, сегодня разберем, как использовать это на практике. Пишем свои процессоры, используя классы FlowFileTransform и RecordTransform. Python-процессор Apache NiFi на базе FlowFileTransform Хотя Apache NiFi предоставляет более 300 процессоров для вычислительных операций и...

09Янв
2024

Особенности разработки процессоров Apache NiFi на Python

Автор Анна Вичуговав категории NiFi

Недавно мы писали про Nifi-Python-Api —клиентский SDK, поддерживающий Python для работы с Apache NiFi. Сегодня на примере разработки процессоров более подробно разберем принципы взаимодействия процессов Python с Java, на которой написан Apache NiFi. Принципы работы Python-кода в Java-среде Apache NiFi Поскольку Apache NiFi написан на Java, именно этот язык предпочтителен...

28Дек
2023

Как Apache Spark планирует и запускает задания в кластере

Автор Анна Вичуговав категории Spark

Планирование запуск заданий Spark в кластере, Apache Spark Для разработчика, разработка Spark-приложений, Apache Spark для дата-инженера, Школа Больших Данных Учебный Центр Коммерсант

Какие механизмы и компоненты позволяют Apache Spark планировать задания и эффективно утилизировать ресурсы кластера. Чем статическое разделение ресурсов отличается от динамического, и как настроить планировщик для ускорения вычислений. Планирование заданий в Apache Spark Распределенный характер Apache Spark предполагает наличие инструментов для разделения ресурсов между вычислениями. В режиме кластера каждое приложение...