Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

22Авг
2024

Бесконечное хранение данных в Apache Kafka с Infinite Storage от Confluent Cloud

Kafka курсы примеры обучение, Kafka для разработчика, Kafka хранение данных, Kafka примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Зачем хранить данные в Apache Kafka постоянно и как это сделать: варианты использования и пример архитектурного решения Infinite Storage от Confluent Cloud, который лег в основу Tiered Storage. Infinite Storage от Confluent Cloud для бесконечного хранения данных в Apache Kafka Изначально Apache Kafka, как и любой другой брокер сообщений, не...

20Авг
2024

Clickhouse 24.8: обзор очередного релиза

Автор Анна Вичуговав категории ClickHouse

обновления ClickHouse, курсы ClickHouse для дата-инженера, инженерия данных примеры курсы обучение, DWH ClickHouse, Школа Больших Данных Учебный Центр Коммерсант

Разработчики ClickHouse с завидной регулярностью радуют новыми релизами. Не прошло и месяца, как опубликован очередной выпуск этой колоночной СУБД, версия 24.8 LTS от 20 августа 2024. О ее главных новинках читайте далее. Несовместимые изменения Начнем с самых важных и несовместимых изменений. В релизе ClickHouse 24.8 LTS для clickhouse-client и clickhouse-local...

16Авг
2024

Динамическое сокращение разделов в Spark SQL

Автор Анна Вичуговав категории Spark

Spark SQL примеры курсы обучение, Spark SQL для дата-инженера и разработчика, обучение Apache Spark Школа Больших Данных Учебный Центр Коммерсант

Что такое Dynamic Partition Pruning в Spark SQL, как работает этот метод оптимизации пакетных запросов, зачем его использовать в задачах аналитики больших данных, и каким образом повысить эффективность его практического применения. Что такое Dynamic Partition Pruning и зачем это нужно в Spark SQL Параллельная обработка данных в Apache Spark обеспечивается...

14Авг
2024

Внешние веб-таблицы в Greenplum и 2 способа их создания

Автор Анна Вичуговав категории Greenplum

обучение Greenplum, курсы Greenplum, курсы дата-инженер Greenplum внешние таблицы, Школа Больших Данных Учебный Центр Коммерсант

Что такое внешние веб-таблицы, зачем они нужны, чем отличаются от обычных external tables и как создать такую таблицу в Greenplum на основе команд и на основе URL. Зачем нужны внешние веб-таблицы в Greenplum О том, что в Greenplum есть внешние (external) и сторонние (foreign) таблицы, которые обеспечивают доступ к данным,...

12Авг
2024

Как движок выполнения влияет на транзакционность операций с FlowFile в Apache NiFi

Автор Анна Вичуговав категории NiFi

обучение дата-инженеров, курсы Apache NiFi, NiFi для дата-инженеров, Школа Больших Данных УЦ Коммерсант

Зачем в Stateless-движке настраивать порт отказа, почему этот механизм в Apache NiFi подходит для надежных и транзакционных источников, но не для всех протоколов передачи данных, а также чем классический режим выполнения эффективнее в эксплуатации. Транзакционность операций с FlowFile в Apache NiFi О том, что Apache NiFi поддерживает два механизма выполнения:...

09Авг
2024

Apache Flink 1.20: обзор свежего выпуска

Автор Анна Вичуговав категории Flink

Flink SQL примеры курсы обучение, потоковая и пакетная обработка данных Apache Flink, Flink для дата-инженера, Школа Больших Данных Учебный Центр Коммерсант

2 августа 2024 года вышел свежий релиз Apache Flink. Знакомимся с главными новинками выпуска 1.20 для упрощения потоковой обработки данных в мощных управляемых конвейерах: новые материализованные таблицы, единый механизм слияния файлов для контрольных точек, улучшения DataStream API и пакетных операций. Улучшения Flink SQL Начнем с новинок Flink SQL, одной из...

07Авг
2024

Отправка уведомлений в Apache AirFlow

Автор Анна Вичуговав категории AirFlow

AirFlow уведомления, обучение AirFlow , курсы AirFlow, курсы дата-инженер разработка DAG AirFlow, Школа Больших Данных Учебный Центр Коммерсант

Как оповестить дата-инженера о задержке и результате выполнения задачи или всего DAG пакетного конвейера обработки данных: варианты отправки уведомлений в Apache AirFlow и особенности их применения. Варианты отправки уведомлений в Apache AirFlow Даже когда конвейер обработки данных разработан и успешно протестирован, в ходе его эксплуатации в рабочей среде неизбежно возникают...

05Авг
2024

UDF во фреймворках Big Data: благо или необходимое зло?

Автор Анна Вичуговав категории Статьи

Kafka Spark Flink SQL курсы примеры обучение, Kafka Spark Flink Greenplum Clickhouse для разработчика, Kafka Flink Spark Greenplum ClickHouse SQL, Big Data UDF примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Почему пользовательские функции лучше применять как можно реже, каковы их возможности и ограничения: краткий обзор особенностей разработки и эксплуатации UDF в Apache Spark SQL, ksqlDB, Flink SQL, Greenplum и ClickHouse. Чем полезны и опасны пользовательские функции в обработке больших данных? Пользовательские функции (User-Defined Functions, UDF) позволяют разработчику расширить возможности фреймворка,...

03Авг
2024

Java-хуки Apache Kafka для UDF-функций ksqlDB

Автор Анна Вичуговав категории Kafka

Kafka курсы примеры обучение, Kafka для разработчика, Kafka SQL ksql ksqlDB, Kafka примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как расширить возможности ksqlDB, реализовав пользовательскую функцию обработки данных, хранящихся в топиках Kafka, с помощью SQL-запросов: ликбез по UDF и практический пример. Пользовательские функции в ksqlDB для работы с данными в топиках Apache Kafka Поскольку Apache Kafka – то не просто брокер сообщений, а целая экосистема потоковой передачи событий, вокруг...

01Авг
2024

Clickhouse 24.7: главные новинки свежего релиза

Автор Анна Вичуговав категории ClickHouse

Новая логика дедупликации данных, ограничения работы с матпредставлениями, дополнительные SQL-функции и улучшения производительности ClickHouse 24.7: краткий обзор ключевых особенностей июльского выпуска. Несовместимые изменения и новые фичи 30 июля 2024 года вышел очередной релиз ClickHouse, в котором довольно много изменений, несовместимых с прошлыми версиями. В частности, в реплицированных базах данных теперь...