Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

25Июн
2023

5 полезных инструментов для работы с Apache AirFlow

Автор Анна Вичуговав категории AirFlow, Блог

ADA Ditto Amundsen gusty Viewflow AirFlow, AirFlow Примеры курсы обучение, дата-инженер курсы примеры Apache AirFlow, инженерия данных с Apache AirFlow, Школа Больших Данных Учебный Центр Коммерсант

Будучи популярным фреймворком для оркестрации пакетных процессов обработки Apache AirFlow образует вокруг себя целую экосистему. Сегодня познакомимся с некоторыми инструментами, которые пригодятся дата-инженеру для проектирования и отладки конвейеров данных: ADA, Ditto, Amundsen, gusty и Viewflow. Аналитика системных метрик Apache AirFlow с ADA и Amundsen ADA — это микросервис, созданный для...

24Июн
2023

Как будет реализован KIP-932 для общих групп потребителей в Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

KIP-932, группы потребителей и группы общего доступа Kafka, потребитель Kafka, дата-инженер разработчик Apache Kafka примеры курсы обучение, обучение Apache Kafka, курсы Apache Kafka, Apache Kafka потребление сообщений курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про группы общего доступа в Apache Kafka, которые планируется реализовать в KIP-932. Сегодня рассмотрим, как именно это предполагается сделать. Принципы работы группы общего доступа Предложение по улучшению Kafka (KIP, Kafka Improvement Proposal) предполагает внесение значительных изменений. Все начинается с публикации предложения, которое рассматривается сообществом, комментируется и пересматривается до...

22Июн
2023

Аккумуляторы в Apache Spark: что это и как их использовать?

Автор Анна Вичуговав категории Spark, Блог

аккумуляторы и широковещательные переменные Spark, Spark Разработка распределенных приложений примеры курсы обучение, курсы по Spark, обучение Apache Spark, курсы Spark-программистов, Apache Spark Для дата-инженеров и разработчиков, обучение разработчиков Big Data, разработка Spark-приложений, PySpark для больших данных курсы обучение, Spark SQL курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Что такое аккумуляторы в Apache Spark, чем они отличаются от широковещательных переменных и какова польза от этих концепций при разработке распределенных приложений и их использовании в кластере. Широковещательные переменные vs аккумуляторы В любой распределенной среде возникает задача сведения локальных результатов вместе. На практике, ее решение не всегда является простым. Например,...

20Июн
2023

Как построить надежную архитектуру конвейера обработки данных: обработка исключений

Автор Анна Вичуговав категории Блог, Статьи

конвейер обработки данных управление оркестрация примеры курсы обучение, курсы DataOps, архитектура данных, инженер данных архитектор Big Data примеры курсы обучение, ETL конвейер примеры курсы обучение, инженерия Big Data, Data Lake Delta Lake ETL примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Сегодня поговорим о том, как обработка исключений позволяет спроектировать и реализовать надежную архитектуру конвейера обработки данных, включая ETL/ELT-процессы и их компоненты. Архитектура конвейеров обработки данных: ETL/ELT-процессы Наличие хорошо спроектированной инфраструктуры данных необходимо для получения максимальной отдачи от данных для data-driven управления. Поскольку данные постоянно увеличиваются в объеме, следует организовать управление...

19Июн
2023

3 уязвимости Apache NiFi в 2023 году

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi уязвимости дата-инженерия безопасность администрирование примеры курсы обучение, Apache NiFi курсы примеры обучение, курсы дата-инженеров, обучение инженеров данных, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Подводим итоги нарушений информационной безопасности в Apache NiFi за первую половину 2023 года. Инъекции кода, десериализация недоверенных данных и неправильное ограничение ссылок на внешние объекты XML. Какие уязвимости в Apache NiFi найдены и исправлены за первую половину 2023 года За 2023 год в Apache NiFi выявлено и исправлено всего 3...

18Июн
2023

Очереди и группы общего доступа для потребителей Apache Kafka: разбираемся с KIP-932

Автор Анна Вичуговав категории Kafka, Блог

Что такое группы общего доступа для потребителей, чем это отличается от существующей концепции группы потребителей, почему в Apache Kafka появляются очереди и чем это улучшит потоковую обработку событий. Что такое KIP-932: группы общего доступа потребления данных из Apache Kafka Напомним, группы потребителей в Kafka предназначены для повышения надежности упорядоченной доставки...

17Июн
2023

JIT-компиляция SQL-запросов в Greenplum

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum JIT, обучение аналитиков и дата-инженеров и аналитиков больших данных, Greenplum анализ и оптимизация SQL-запросов, курсы Greenplum, Greenplum для дата-инженера курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, PostgreSQL в больших данных примеры обучение курсы, Школа Больших Данных Учебный Центр Коммерсант

Чтобы SQL-запросы выполнялись быстрее, в Greenplum, как и в PostgreSQL, поддерживается JIT-компиляция. Читайте далее, что это такое и всегда ли эта динамическая генерация машинного кода на лету дает выигрыш в скорости для аналитики больших данных. Что такое JIT-компиляция Технология JIT-компиляции (Just-In-Time) позволяет генерировать машинный код во время выполнения программы. В...

16Июн
2023

Отладка конвейеров Apache AirFlow с on_failure_callback()

Автор Анна Вичуговав категории AirFlow, Блог

отладка и мониторинг DAG задачи Airflow, обратные вызовы Airflow, Airflow для дата-инженера, конвейеры обработки данных Airflow, регистрация и мониторинг событий Airflow, on_failure_callback Airflow, курсы Airflow, Airflow для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как использовать функции обратного вызова для отладки конвейера обработки данных в Apache AirFlow, а также отправки оповещений об ошибках. Полезные примеры регистрации и мониторинга сбоев на уровне задачи и всего DAG с on_failure_callback(). Польза обратных вызовов Apache AirFlow на примере on_failure_callback По мере роста и усложнения конвейеров данных, построенных с...

15Июн
2023

3 способа прочитать данные из Kafka с помощью Spark

Автор Анна Вичуговав категории Kafka, Spark, Блог

Spark Streaming Kafka Google Colab, Spark SQL Kafka Streaming для разработчиков, курсы по Spark, обучение Apache Spark, курсы Spark-программистов, обучение разработчиков Big Data, разработка Spark-приложений, Школа Больших Данных Учебный Центр Коммерсант

Как Spark-приложение может прочитать данные из топиков Kafka: обзор вариантов и способов их использования. А также рассмотрим, почему Spark Structured Streaming заменила прямой поток и подход на основе приемника. Прямой поток и подход на основе приемника Будучи мощным фреймворком разработки распределенных приложений, Apache Spark позволяет считывать данные в потоковом режиме...

14Июн
2023

Создание и тестирование источника данных в Apache Flink

Автор Анна Вичуговав категории Flink, Блог

Apache Flink data source Примеры курсы обучение, Apache Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка больших данных с Apache Flink обучение примеры курсы, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про источники данных Apache Flink. Сегодня рассмотрим, как создать и протестировать собственный источник данных для их обработки в распределенном приложении. Создание своего источника данных в Apache Flink Напомним, источник данных в Apache Flink состоит из трех основных компонентов: Split, SplitEnumerator и SourceReader. Splits — это часть данных,...