Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

15Июн
2024

Потоковая агрегация событий из Apache Kafka в RisingWave

Автор Анна Вичуговав категории Kafka, NoSql

архитектура распределенных систем паттерны примеры курсы обучение, архитектор Big Data, Kafka курсы примеры обучение, NoSQL обучение примеры курсы, архитектура данных с Kafka, проектирование потокового конвейера примеры курсы обучение, интеграция Kafka и Redis, Kafka примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Практическая демонстрация потоковой агрегации событий пользовательского поведений из Apache Kafka с записью результатов в Redis на платформе RisingWave: примеры Python-кода и конвейера из SQL-инструкций. Постановка задачи Одной из ярких тенденций в современном стеке Big Data сегодня стали платформы данных, которые позволяют интегрировать разные системы между собой, поддерживая как пакетную, так...

14Июн
2024

Проблемы потоковой передачи в озеро данных и как Apache Iceberg их решает

Автор Анна Вичуговав категории Статьи

архитектор Big Data, архитектора DataLake курсы примеры обучение, NoSQL обучение примеры курсы, архитектура данных DWH Data Lake LakeHouse, обучение системных аналитиков и архитекторов DWH, Школа Больших Данных Учебный Центр Коммерсант

Архитектура Data Lake: что не так с потоковыми обновлениями данных в Data Lake, как Apache Iceberg реализует эти операции и почему Upsolver решили улучшить этот формат Проблема потоковых обновлений в Data Lake и 2 подхода к ее решению Считается, что озеро данных (Data Lake) предлагают доступное и гибкое хранилище, позволяющее...

13Июн
2024

Неконсистентность данных в распределенной системе: Apache Kafka и проблема двойной записи

Автор Анна Вичуговав категории Kafka

Проклятье CAP-теоремы: проблема целостности данных в распределенной системе и варианты ее решения. 3 шаблона проектирования микросервисной EDA-архитектуры на Apache Kafka: transactional outbox, Event Sourcing и listen to yourself. Что такое проблема двойной записи в распределенных гетерогенных системах Согласно CAP-теореме, распределенная система в любой момент времени обеспечивает выполнение только 2-х требований...

07Июн
2024

Изоляция транзакций в Apache Kafka при потреблении сообщений

Автор Анна Вичуговав категории Kafka

Kafka курсы примеры обучение, инженерия данных с Kafka, транзакции Kafka, публикация Kafka пример, Школа Больших Данных Учебный Центр Коммерсант

Как Apache Kafka реализует требование к изоляции потребления сообщений, опубликованных транзакционно, и где это настроить в клиентских API, зачем отслеживать LSO, для чего прерывать транзакцию, и какими методами это обеспечивается в библиотеке confluent_kafka. Транзакционое потребление: изоляция чтения сообщений в Apache Kafka При том, что Apache Kafka не является базой данных,...

04Июн
2024

Транзакции в Apache Kafka: атомарность публикации сообщений

Автор Анна Вичуговав категории Kafka

Как Apache Kafka реализует требование к атомарности транзакций с помощью координатора и журнала транзакций: принцип Atomic в ACID и его иллюстрация на UML-диаграмме последовательности публикации сообщений в раздел топика. Транзакционная публикация сообщений в Apache Kafka Хотя Apache Kafka не является базой данных, эта платформа потоковой передачи событий все же хранит...

25Мар
2024

Разделять ли топик Apache Kafka: 5 главных соображений

Автор Анна Вичуговав категории Kafka

разделы и топики Kafka, Kafka проектирование потокового конвейера, архитектура данных с Kafka, Kafka примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Почему раздел называется единицей параллелизма и как определить оптимальное число разделов в топике Apache Kafka в зависимости от количества потребителей и вариативности их поведения, разницы пропускной способности публикации и потребления сообщений, семантики партиционирования, толерантности к упорядоченности событий и ресурсных возможностей узла кластера. Что учитывать при разделении топика Apache Kafka Хотя...

23Мар
2024

Проектирование raw-слоя DWH для последующего преобразования в Data Vault

Автор Анна Вичуговав категории AirFlow, Greenplum

DWH Проектирование пример, проектирование DWH пример, обучение архитектура данных примеры, построение корпоративного хранилища данных, Школа Больших Данных Учебный центр Коммерсант

Как определить структуру Raw-слоя корпоративного хранилища данных: пример проектирования и DDL-скрипт для кейса электронной коммерции, выбор компонентов решения для архитектуры данных. Постановка задачи: анализ систем-источников Сегодня корпоративные хранилища данных (DWH, Data Warehouse) обычно реализуются в виде нескольких баз данных, связанных ETL-процессами. Причем каждая из этих гомогенных или гетерогенных, т.е. на...

12Мар
2024

3 главных проблемы проектирования современной архитектуры данных

Автор Анна Вичуговав категории NoSql

Streaming архитектура инженерия данных, потоковая обработка больших данных, потоковые и пакетные конвейеры обработки данных, потоки Big Data примеры курсы обучение, обучение дата-инженеров и архитекторов данных, курсы инженеров данных, Школа Больших Данных Учебный Центр Коммерсант

От оркестрации и синхронизации конвейеров обработки данных до управления хранилищами, включая хранение состояний для stateful-приложений: сложности проектирования архитектуры потоковой обработки событий и способы их решения. Основные сложности проектирования современной архитектуры данных Из-за принципиальных отличий потоковой парадигмы обработки данных от пакетной, что разбиралось здесь, задача проектирования дата-конвейеров сильно усложняется, т.к. редко...

17Фев
2024

4 модели потоковой парадигмы обработки данных

Автор Анна Вичуговав категории Flink, Kafka, Spark

Streaming архитектура инженерия данных, потоковая обработка больших данных, Kafka Flink Spark Streaming, потоки Big Data примеры курсы обучение, обучение дата-инженеров и архитекторов данных, курсы инженеров данных, Школа Больших Данных Учебный Центр Коммерсант

Чем пакетная парадигма обработки данных отличается от пакетной и как она реализуется на практике: принципы работы и воплощение в Big Data на примере Apache Spark, Kafka и Flink. Еще раз о разнице потоковой и пакетной парадигмы обработки данных Пакетная обработка и потоковая обработка — это две разные парадигмы обработки данных....

08Янв
2024

Как извлечь данные из реляционной базы: основные паттерны

Автор Анна Вичуговав категории Статьи

ETL инженерия данных, проектирование ETL-конвейеров с РСУБД, извлечение данных из БД, обучение дата-инженеров, курсы инженеров данных, ETL конвейер отслеживания изменений в РСУБД, Школа Больших Данных Учебный Центр Коммерсант

Большинство ETL-конвейеров извлекают данные из реляционных баз в пакетном или микропакетном режиме. Читайте далее, по каким шаблонам реализовать операции извлечения. Моментальные снимки: периодическая выгрузка данных из исходных таблиц Полная периодическая выгрузка данных из одной или нескольких таблиц – это, пожалуй, самый простой метод извлечения изменяемых данных. По своей сути результат полной...