Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

12Авг
2024

Как движок выполнения влияет на транзакционность операций с FlowFile в Apache NiFi

обучение дата-инженеров, курсы Apache NiFi, NiFi для дата-инженеров, Школа Больших Данных УЦ Коммерсант

Зачем в Stateless-движке настраивать порт отказа, почему этот механизм в Apache NiFi подходит для надежных и транзакционных источников, но не для всех протоколов передачи данных, а также чем классический режим выполнения эффективнее в эксплуатации. Транзакционность операций с FlowFile в Apache NiFi О том, что Apache NiFi поддерживает два механизма выполнения:...

09Авг
2024

Apache Flink 1.20: обзор свежего выпуска

Автор Анна Вичуговав категории Flink

Flink SQL примеры курсы обучение, потоковая и пакетная обработка данных Apache Flink, Flink для дата-инженера, Школа Больших Данных Учебный Центр Коммерсант

2 августа 2024 года вышел свежий релиз Apache Flink. Знакомимся с главными новинками выпуска 1.20 для упрощения потоковой обработки данных в мощных управляемых конвейерах: новые материализованные таблицы, единый механизм слияния файлов для контрольных точек, улучшения DataStream API и пакетных операций. Улучшения Flink SQL Начнем с новинок Flink SQL, одной из...

07Авг
2024

Отправка уведомлений в Apache AirFlow

Автор Анна Вичуговав категории AirFlow

AirFlow уведомления, обучение AirFlow , курсы AirFlow, курсы дата-инженер разработка DAG AirFlow, Школа Больших Данных Учебный Центр Коммерсант

Как оповестить дата-инженера о задержке и результате выполнения задачи или всего DAG пакетного конвейера обработки данных: варианты отправки уведомлений в Apache AirFlow и особенности их применения. Варианты отправки уведомлений в Apache AirFlow Даже когда конвейер обработки данных разработан и успешно протестирован, в ходе его эксплуатации в рабочей среде неизбежно возникают...

05Авг
2024

UDF во фреймворках Big Data: благо или необходимое зло?

Автор Анна Вичуговав категории Статьи

Kafka Spark Flink SQL курсы примеры обучение, Kafka Spark Flink Greenplum Clickhouse для разработчика, Kafka Flink Spark Greenplum ClickHouse SQL, Big Data UDF примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Почему пользовательские функции лучше применять как можно реже, каковы их возможности и ограничения: краткий обзор особенностей разработки и эксплуатации UDF в Apache Spark SQL, ksqlDB, Flink SQL, Greenplum и ClickHouse. Чем полезны и опасны пользовательские функции в обработке больших данных? Пользовательские функции (User-Defined Functions, UDF) позволяют разработчику расширить возможности фреймворка,...

03Авг
2024

Java-хуки Apache Kafka для UDF-функций ksqlDB

Автор Анна Вичуговав категории Kafka

Kafka курсы примеры обучение, Kafka для разработчика, Kafka SQL ksql ksqlDB, Kafka примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как расширить возможности ksqlDB, реализовав пользовательскую функцию обработки данных, хранящихся в топиках Kafka, с помощью SQL-запросов: ликбез по UDF и практический пример. Пользовательские функции в ksqlDB для работы с данными в топиках Apache Kafka Поскольку Apache Kafka – то не просто брокер сообщений, а целая экосистема потоковой передачи событий, вокруг...

01Авг
2024

Clickhouse 24.7: главные новинки свежего релиза

Автор Анна Вичуговав категории ClickHouse

обновления ClickHouse, курсы ClickHouse для дата-инженера, инженерия данных примеры курсы обучение, DWH ClickHouse, Школа Больших Данных Учебный Центр Коммерсант

Новая логика дедупликации данных, ограничения работы с матпредставлениями, дополнительные SQL-функции и улучшения производительности ClickHouse 24.7: краткий обзор ключевых особенностей июльского выпуска. Несовместимые изменения и новые фичи 30 июля 2024 года вышел очередной релиз ClickHouse, в котором довольно много изменений, несовместимых с прошлыми версиями. В частности, в реплицированных базах данных теперь...

31Июл
2024

Apache Kafka 3.8: обзор свежего релиза

Автор Анна Вичуговав категории Kafka

Kafka курсы примеры обучение, Kafka для разработчика, Kafka обновление 3.8, Kafka примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

29 июля 2024 года вышло очередное обновление Apache Kafka. Разбираемся с главными новинками релизе 3.8: поддержка JBOD в многоуровневом хранилище, детальная настройка уровня сжатия, улучшение безопасности и удаление неоднозначных конфигураций. ТОП-7 новинок Apache Kafka 3.8 Многоуровневое хранилище (Tiered Storage) для надежного долговременного хранения данных, опубликованных в Kafka, без ущерба высокой...

30Июл
2024

Процессоры-слушатели в Apache NiFi

Автор Анна Вичуговав категории NiFi

NiFI процессоры, NiFI примеры курсы обучение, NiFI для инженера данных, потоковая обработка с NiFI, Школа Больших Данных Учебный Центр Коммерсант

Какие процессоры Apache NiFi позволяют принимать и обрабатывать данные из различных источников по разным протоколам, и как избежать сбоев при их использовании с удержанием открытых соединений и порты. Listen-процессоры Apache NiFi В Apache NiFi есть целый набор процессов-слушателей, которые принимают и обрабатывают входящие данные из различных источников по разным протоколам....

29Июл
2024

Оптимальная сортировка таблиц Clickhouse: улучшения ORDER BY в релизе 24.6

Автор Анна Вичуговав категории ClickHouse

таблицы индексы сортировка ClickHouse, курсы ClickHouse для дата-инженера, инженерия данных примеры курсы обучение, DWH ClickHouse, Школа Больших Данных Учебный Центр Коммерсант

Зачем в ClickHouse 24.6 добавлена настройка optimize_row_order для оптимизации порядка строк MergeTree-таблиц, как она работает и где ее применять. Как связаны индексация и сортировка таблиц в ClickHouse Даже не будучи классической реляционной СУБД, ClickHouse поддерживает индексацию, насколько это возможно в его колоночной природе, индексируя первичным ключом целую группу строк (гранулу)...

25Июл
2024

YAML вместо Python: LowCode-разработка DAG в Apache AirFlow с DAG Factory

Автор Анна Вичуговав категории AirFlow

AirFlow DAG Factory , обучение AirFlow , курсы AirFlow, курсы дата-инженер разработка DAG AirFlow, Школа Больших Данных Учебный Центр Коммерсант

Как написать DAG в Apache AirFlow без программирования, определив его конфигурацию в YAML-файле, и автоматически получить пакетный конвейер обработки данных с помощью Python-библиотеки DAG Factory. Демократизация разработки ETL-конвейеров или что такое DAG Factory в Apache AirFlow Хотя Apache AirFlow и так считается довольно простым фреймворком для оркестрации пакетных процессов и...