Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

31Июл
2024

Kafka курсы примеры обучение, Kafka для разработчика, Kafka обновление 3.8, Kafka примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

29 июля 2024 года вышло очередное обновление Apache Kafka. Разбираемся с главными новинками релизе 3.8: поддержка JBOD в многоуровневом хранилище, детальная настройка уровня сжатия, улучшение безопасности и удаление неоднозначных конфигураций. ТОП-7 новинок Apache Kafka 3.8 Многоуровневое хранилище (Tiered Storage) для надежного долговременного хранения данных, опубликованных в Kafka, без ущерба высокой...

30Июл
2024

Процессоры-слушатели в Apache NiFi

Автор Анна Вичуговав категории NiFi

NiFI процессоры, NiFI примеры курсы обучение, NiFI для инженера данных, потоковая обработка с NiFI, Школа Больших Данных Учебный Центр Коммерсант

Какие процессоры Apache NiFi позволяют принимать и обрабатывать данные из различных источников по разным протоколам, и как избежать сбоев при их использовании с удержанием открытых соединений и порты. Listen-процессоры Apache NiFi В Apache NiFi есть целый набор процессов-слушателей, которые принимают и обрабатывают входящие данные из различных источников по разным протоколам....

29Июл
2024

Оптимальная сортировка таблиц Clickhouse: улучшения ORDER BY в релизе 24.6

Автор Анна Вичуговав категории ClickHouse

таблицы индексы сортировка ClickHouse, курсы ClickHouse для дата-инженера, инженерия данных примеры курсы обучение, DWH ClickHouse, Школа Больших Данных Учебный Центр Коммерсант

Зачем в ClickHouse 24.6 добавлена настройка optimize_row_order для оптимизации порядка строк MergeTree-таблиц, как она работает и где ее применять. Как связаны индексация и сортировка таблиц в ClickHouse Даже не будучи классической реляционной СУБД, ClickHouse поддерживает индексацию, насколько это возможно в его колоночной природе, индексируя первичным ключом целую группу строк (гранулу)...

25Июл
2024

YAML вместо Python: LowCode-разработка DAG в Apache AirFlow с DAG Factory

Автор Анна Вичуговав категории AirFlow

AirFlow DAG Factory , обучение AirFlow , курсы AirFlow, курсы дата-инженер разработка DAG AirFlow, Школа Больших Данных Учебный Центр Коммерсант

Как написать DAG в Apache AirFlow без программирования, определив его конфигурацию в YAML-файле, и автоматически получить пакетный конвейер обработки данных с помощью Python-библиотеки DAG Factory. Демократизация разработки ETL-конвейеров или что такое DAG Factory в Apache AirFlow Хотя Apache AirFlow и так считается довольно простым фреймворком для оркестрации пакетных процессов и...

24Июл
2024

Потоковая агрегация и передача данных из Kafka в Redis через SQL-запросы в RisingWave

Автор Анна Вичуговав категории Kafka, NoSql

Kafka курсы примеры обучение, Kafka для разработчика, Kafka SQL, Kafka примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как SQL-запросами соединить потоки из разных топиков Apache Kafka и отправить результаты в Redis: демонстрация ETL-конвейера на материализованных представлениях в RisingWave. Постановка задачи и проектирование потоковой системы Продолжая недавний пример потоковой агрегации данных из разных топиков Kafka с помощью SQL-запросов, сегодня расширим потоковый конвейер в RisingWave, добавив приемник данных –...

23Июл
2024

Потоковая агрегация данных из Kafka на SQL в RisingWave: пример

Автор Анна Вичуговав категории Kafka

Как соединить данные из разных топиков Apache Kafka с помощью пары SQL-запросов: коннекторы, материализованные представления и потоковая база данных вместо полноценного потребителя. Подробная демонстрация запросов в RisingWave. Проектирование и реализация потоковой агрегации данных из Kafka в RisingWave Вчера я показывала пример потоковой агрегации данных из разных топиков Kafka с помощью...

22Июл
2024

Потоковые соединения из Kafka на Python: практический пример

Автор Анна Вичуговав категории Kafka

Kafka курсы примеры обучение, Kafka для разработчика, Kafka Python, Kafka примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Сегодня я покажу простую демонстрацию потоковой агрегации данных из разных топиков Apache Kafka на примере Python-приложений для соединения событий пользовательского поведения с информацией о самом пользователе. Постановка задачи Рассмотрим примере кликстрима, т.е. потокового поступления данных о событиях пользовательского поведения на страницах сайта. Предположим, данные о самом пользователе: его идентификаторе, электронном...

21Июл
2024

Расширенные функции Apache Flink

Автор Анна Вичуговав категории Flink

Flink Python UDF, Flink rich function, Apache Flink дата-инженерия, Apache Flink примеры курсы обучение, разработка Flink -приложений, Flink для инженеров данных и разработчиков, Школа Больших Данных Учебный Центр Коммерсант

Что такое rich-функции в Apache Flink, зачем они нужны, чем отличаются от обыкновенных UDF и как с ними работать: простой пример на PyFlink с запуском в Google Colab. Rich-функции в Apache Flink Будучи очень мощным фреймворком для разработки распределенных потоковых приложений, Apache Flink не только предоставляет широкий набор stateful-функций, но...

20Июл
2024

Greenplum 7.2: обзор июльского релиза

Автор Анна Вичуговав категории Greenplum

Greenplum для разработчика и дата-инженера примеры курсы обучение, Greenplum обновление новинки примеры, разработчик администратор кластера Greenplum, администрирование Greenplum, Школа Больших Данных Учебный Центр Коммерсант

20 июня 2024 года вышел очередной релиз Greenplum. Разбираемся с ключевыми новинками выпуска 7.2: сканирование индекса в AO-таблицах, изменения в оптимизаторе GPORCA, улучшенная обработка геопространственных данных и новая служба централизованного управления сегментами Postmaster. Новинки Greenplum 7.2 для дата-инженера Начнем с изменений, повышающих производительность Greenplum. Одним из них стало сканирование индекса...

19Июл
2024

Как написать свой отсроченный оператор Apache AirFlow

Автор Анна Вичуговав категории AirFlow

триггеры AirFlow, асинхронные операторы AirFlow, отложенные операторы AirFlow, асинхронное программирование AirFlow, AirFlow для дата-инженера и разработчика, Школа Больших Данных Учебный Центр Коммерсант

Почему триггеры отсроченных операторов Apache AirFlow не могут быть блокирующими и как сделать их асинхронными с помощью Python-библиотеки asyncio. Создание своего отсроченного оператора в Apache AirFlow О том, что такое отсроченные операторы, как они связаны с триггерами и асинхронными Python-вызовами в Apache AirFlow, мы недавно говорили здесь. Помимо использования существующих...