Курсы Big Data, Arenadata, Greenplum, Kafka и Spark

12Июл
2024

Асинхронные операции ввода/вывода в Apache Flink

Flink асинхронные операции, Asenc API Flink, Apache Flink дата-инженерия, Apache Flink примеры курсы обучение, разработка Flink -приложений, Flink для инженеров данных и разработчиков, Школа Больших Данных Учебный Центр Коммерсант

API асинхронного ввода-вывода в Apache Flink и как его использовать для асинхронной интеграции данных из внешней системы с потоком событий. Основы асинхронной обработки в Apache Flink Обогащение потоков данных информацией из внешних систем является довольно сложным кейсом из-за необходимости синхронизировать скорость поступления событий с задержкой доступа к внешнему источнику. При...

11Июл
2024

Под капотом Spark Structured Streaming: интерфейсы потоковых запросов и их методы

Автор Анна Вичуговав категории Spark

Spark Structured Streaming примеры курсы обучение, Spark Structured Streaming для дата-инженера и разработчика, обучение Apache Spark Школа Больших Данных Учебный Центр Коммерсант

Как устроен потоковый запрос Spark Structured Streaming на уровне кода: интерфейсы, их методы и как их настроить, создание и запуск StreamingQuery. Создание потокового запроса в Spark Structured Streaming Хотя структурированная потоковая передача Spark основана на SQL-движке этого фреймворка, в ней гораздо больше сложных абстракций. Например, с точки зрения программирования потоковый...

09Июл
2024

Распараллеливание заданий в PySpark

Автор Анна Вичуговав категории Spark

Spark Python для дата-инженеров и разработчиков, Spark PySpark, параллельная обработка Spark, Spark примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Почему параллельное выполнение заданий в Apache Spark зависит от языка программирования и как можно обойти однопоточную природу Python в PySpark. Что не так с параллельным выполнением заданий PySpark и как это исправить? Apache Spark позволяет писать распределенные приложения благодаря инструментам для распределения ресурсов между вычислительными процессами. В режиме кластера каждое...

08Июл
2024

Тонкости агрегации в ClickHouse: как избежать OOM-ошибки с GROUP BY?

Автор Анна Вичуговав категории ClickHouse

агрегации ClickHouse, курсы ClickHouse для дата-инженера, инженерия данных примеры курсы обучение, DWH ClickHouse, Школа Больших Данных Учебный Центр Коммерсант

Как работают агрегатные функции в ClickHouse, почему SQL-запросы с GROUP BY потребляют много памяти и что поможет сделать их быстрее и эффективнее: лайфхаки многопоточной агрегации в колоночной базе данных. Особенности выполнения оператора GROUP BY в ClickHouse Агрегатные функции позволяют вычислить экстремум (минимум/максимум), среднее значение, количество, сумму или другое результирующее значение...

02Июл
2024

Как ускорить Apache Spark Structured Streaming: 3 главных параметра потоковой обработки

Автор Анна Вичуговав категории Spark

Spark Structured Streaming для дата-инженеров и разработчиков, Spark Structured Streaming настройка, потоковая обработка Spark Structured Streaming, Spark Structured Streaming примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Как размер пакета, режим вывода и интервал срабатывания триггера потоковой обработки влияют на скорость вычислений в приложении Apache Spark Structured Streaming и как настроить эти параметры. Размер пакета при потоковой обработке данных в Spark Streaming Хотя скорость обработки данных средствами Apache Spark Streaming зависит от многих факторов, включая саму структуру...

27Июн
2024

Транзакции в ClickHouse

Автор Анна Вичуговав категории ClickHouse

транзакции ClickHouse, курсы ClickHouse для дата-инженера, инженерия данных примеры курсы обучение, DWH ClickHouse, Школа Больших Данных Учебный Центр Коммерсант

Почему в ClickHouse нет полноценных транзакций, но введена экспериментальная поддержка ACID для операций вставки в таблицы движка MergeTree, как это реализуется и чем синхронная вставка отличается от асинхронной. Особенности операций вставки в ClickHouse В ClickHouse нет полноценных транзакций, поскольку это колоночное хранилище в первую очередь ориентировано на чтение большого объема...

26Июн
2024

Транзакции и блокировки в Greenplum

Автор Анна Вичуговав категории Greenplum

Какие SQL-команды есть в Greenplum для транзакционной обработки данных, как MVCC исключает явные блокировки, можно ли установить их вручную и как это сделать: режимы блокировки и глобальный детектор взаимоблокировок в MPP-СУБД. Транзакции, MVCC и режимы блокировки Greenplum Про изоляцию транзакций в Greenplum и Arenadata DB мы уже писали здесь. Транзакции...

24Июн
2024

Архитектура и принципы работы Spark Connect

Автор Анна Вичуговав категории Spark

Spark для дата-инженеров и разработчиков, обзор нового релиза Apache Spark, новинки Spark 4.0, Spark примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Что общего у клиент-серверной архитектуры Spark Connect с JDBC-драйвером подключения к БД, как взаимодействуют клиент и сервер по gRPC, как подключиться к серверу и указать обязательность поля в схеме proto-сообщения. Как работает Spark Connect О том, что представляет собой Spark Connect и зачем нужен этот клиентский API, позволяющий удаленно подключаться...

22Июн
2024

Чего ждать от Apache Spark 4.0: обзор свежего предрелиза

Автор Анна Вичуговав категории Spark

3 июня 2024 года вышел предварительный релиз Apache Spark 4.0. Эта версия еще не считается стабильной и предназначена только для ознакомления. Поэтому даже полноценные release notes по ней пока отсутствуют. Тем не менее, сегодня познакомимся с наиболее интересными фичами этого выпуска: новый тип данных VARIANT, API источника данных Python и...

19Июн
2024

Выгрузка данных из Greenplum с GPSS

Автор Анна Вичуговав категории Greenplum

Greenplum для разработчика и дата-инженера примеры курсы обучение, GPSS Greenplum выгрузка данных, разработчик Greenplum, использование Greenplum, Школа Больших Данных Учебный Центр Коммерсант

Почему потоковый сервер Greenplum выгружает данные во внешние системы пакетно: тонкости утилиты gpfdist и YAML-файла конфигурации выгрузки. Возможности и ограничения GPSS-сервера при выгрузке данных во внешние системы из MPP-СУБД. Потоковый сервер Greenplum Ключевым отличием Greenplum от PostgreSQL является поддержка механизма массово-параллельной обработки, благодаря чему эта MPP-СУБД относится к стеку Big...