Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

02Дек
2023

Все успешно: файл _SUCCESS в рабочих процессах Apache Spark

Автор Анна Вичуговав категории Spark, Блог

разработка Spark-приложений примеры курсы обучение

Когда и зачем Spark-приложение создает файл _SUCCESS, почему в нем нет данных, как его использовать, можно ли обойтись без него и как это сделать. Пример запуска PySpark-приложения в Google Colab. Когда и зачем Spark-приложение создает файл _SUCCESS В Apache Spark при выполнении операций записи с использованием таких методов, как saveAsTextFile(),...

01Дек
2023

Apache Kafka vs Streams и Pub/Sub в Redis

Автор Анна Вичуговав категории Kafka, NoSql, Блог

Kafka vs Redis Streams and Pub/Sub, обучение Apache Kafka, Apache Kafka для дата-инженеров и разработчиков, курсы по Apache Kafka, Apache Kafka разработчик примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Как key-value СУБД Redis может работать с потоковыми данными и чем Pub/Sub и Streams отличаются от Apache Kafka. Сравнение и рекомендации по использованию. Потоковое сохранение данных Redis Будучи очень быстрым key-value хранилищем, NoSQL-СУБД Redis часто используется в качестве слоя кэширования для разгрузки основной базы данных. В отличие от многих других...

30Ноя
2023

SQL-запросы к Clickhouse в онлайн-песочнице: практический пример

Автор Анна Вичуговав категории ClickHouse, NoSql, Блог

Big Data, Большие данные, SQL, обработка данных, ClickHouse

Насколько быстро ClickHouse выполняет SQL-запросы: тестирование СУБД в открытой онлайн-песочнице. Примеры запросов и время их выполнения. Работа с онлайн-песочницей Clickhouse: выполнение SQL-запросов Будучи реляционной аналитической СУБД, ClickHouse позволяет обрабатывать гигабайты данных в реальном времени. Архитектурные особенности, благодаря которым реализуется такая скорость, мы недавно разбирали здесь. Чтобы оценить это на практике,...

26Ноя
2023

Greenplum vs Clickhouse: сравнение аналитических СУБД для Big Data

Автор Анна Вичуговав категории ClickHouse, Greenplum, NoSql, Блог

Big Data, Большие данные, Greenplum, SQL, обработка данных, PostgreSQL, ClickHouse, архитектура и аналитика больших данных, аналитические СУБД, , Школа Больших Данных Учебный Центр Коммерсант

Сходства и различия популярных реляционных аналитических СУБД с открытым исходным кодом: что общего у Greenplum с ClickHouse, чем они отличаются, что и когда выбирать. Greenplum и Clickhouse: обзор возможностей для аналитики больших данных Обе СУБД являются реляционными и относятся к классу OLAP-систем, т.е. ориентированы на аналитические варианты использования, т.е. чтение...

23Ноя
2023

Оптимизация использования RocksDB и параллелизма в Apache Flink

Автор Анна Вичуговав категории Flink, Блог

Flink приложения, Flink RocksDB, Flink параллелизм заданий, Apache Flink примеры курсы обучение для разработчика, обучение Flink, курсы Flink, Flink для разработчиков и дата-инженеров, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Почему хранить состояния Flink-приложений лучше на локальных SSD-диски, а не на твердотельных накопителях с удаленной файловой системой NFS или HDFS, зачем отключать блочный кэш RocksDB и как настроить параллелизм заданий. Проблемы сохранения состояния в RocksDB и способы их решения Как мы уже упоминали здесь, key-value хранилище RocksDB является самым популярным...

22Ноя
2023

Как язык разработки влияет на стратегию партиционирования в Apache Kafka: тонкости хэширования

Автор Анна Вичуговав категории Kafka, Блог

разделение хэш-функция ключа Kafka, стратегии партиционирования хэширование Kafka, Kafka-Python примеры, дата-инженер разработчик Apache Kafka примеры курсы обучение, обучение Apache Kafka, курсы Apache Kafka, Apache Kafka потребление и публикация сообщений курсы примеры обучение, потоковая обработка данных с Kafka примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как работает распределение сообщений по разделам топика Kafka с явно заданным ключом партиционирования и на что влияет язык разработки приложения-продюсера при использовании этой стратегии. 3 стратегии распределения сообщений по разделам в Apache Kafka В Apache Kafka единицей параллелизма выступает раздел топика. Используя несколько разделов, можно распределять нагрузку на брокеров в...

19Ноя
2023

Отметки времени событий для безопасности архитектуры данных Lakehouse

Автор Анна Вичуговав категории Spark, Блог

архитектура данных, ETL время события, отметки времени DWH Data Lake, Школа Больших данных учебный центр Коммерсант

Как отметки времени о событиях в архитектуре данных Lakehouse позволяют обеспечить безопасность Delta Lake: примеры извлечения и преобразования, а также лучшие практики. Почему отметки времени в логах системных событий так важны для архитектуры больших данных Архитектура Lakehouse построена на открытых стандартах и API, которые позволяют сочетать ACID-транзакции и управление данными...

18Ноя
2023

Управление зависимостями Python в кластере со Spark Connect

Автор Анна Вичуговав категории Spark, Блог

Управление зависимостями в кластере Apache Spark, разработка Spark-приложений, Apache Spark Для разработчика и дата-инженера, ад зависимостей Python в Spark, Spark PySpark примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Как управлять средой PySpark-приложения в распределенной вычислительной среде: проблемы зависимостей Python в кластере и способы их решения с помощью сеансов Spark Connect в версии 3.5.0. Управление зависимостями в Python и PySpark Каждый Python-разработчик хотя бы раз сталкивался с проблемой несовместимости пакетов. Эта ситуация называется ад зависимостей (dependency hell), когда вновь...

17Ноя
2023

Apache Flink 1.18: что нового?

Автор Анна Вичуговав категории Flink, Блог

Apache Flink 1.18 обзор релиза, Flink примеры курсы обучение для разработчика, обучение Flink, курсы Flink, Flink для разработчиков и дата-инженеров, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

24 октября 2023 года вышел очередной релиз Apache Flink. Знакомимся с главными новинками популярного Big Data фреймворка для разработки потоковых stateful-приложений: JDBC-драйвер для SQL-шлюза, хранимые процедуры для коннекторов, расширенная поддержка SQL, динамическое масштабирование с REST API и RocksDB, улучшение пакетных операций, а также другие полезные фичи Apache Flink 1.18. Улучшения...

14Ноя
2023

Сквозное шифрование на уровне полей для Apache Kafka Connect с библиотекой Kryptonite

Автор Анна Вичуговав категории Kafka, Блог

Kryptonite for kafka, Kafka Connect шифрование, Apache Kafka безопасность, Kafka для разработчиков и дата-инженеров, шифрование Kafka шифрование сообщений в Kafka, обучение Apache Kafka, Apache Kafka для дата-инженеров и разработчиков, курсы по Apache Kafka, Apache Kafka разработчик примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

О важности шифрования чувствительных данных, публикуемых в Apache Kafka, мы недавно писали здесь и здесь. В продолжение этой темы сегодня познакомимся с Kryptonite – open-source библиотекой для сквозного шифрования на уровне полей для Apache Kafka Connect. Шифрование данных вне брокеров Apache Kafka: зачем это нужно Apache Kafka поддерживает несколько функций...