Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

03Фев
2024

4 стратегии мультирегионального развертывания Apache Kafka

репликация кластера Apache Kafka Confluent, мультирегональная геораспределенная репликация Kafka, курсы по Kafka примеры обучение, Школа Больших Данных

Завершая цикл статей про мультирегиональную репликацию кластеров Apache Kafka, сегодня поговорим про стратегии развертывания топологий, предлагаемых компанией Confluent. Принципы архитектуры, сравнение, сценарии, критерии выбора. Критерии выбора топологии репликации кластера Apache Kafka Для повышения надежности и производительность потоковой обработки данных с использованием Apache Kafka кластера этой платформы рекомендуется располагать в разных...

31Янв
2024

4 способа реализации мультирегиональной репликации Apache Kafka

Автор Анна Вичуговав категории Kafka

Продолжая разговор про межрегиональную репликацию Apache Kafka, сегодня рассмотрим 4 способа ее реализации: мультирегиональный кластер, MirrorMaker 2, Cluster Linking в Confluent Server и Confluent Replicator. Чем георепликация Kafka с MirrorMaker 2 отличается от решений Confluent и что выбирать для различных сценариев. Мультирегиональный кластер Confluent Геораспределенная репликация реплицирует данные по кластерам...

27Янв
2024

2 решения Confluent для мультирегиональной георепликации Apache Kafka

Автор Анна Вичуговав категории Kafka

Недавно мы писали про мультирегиональную репликацию Apache Kafka. Сегодня рассмотрим, как выполнить геораспределенную репликацию с помощью Cluster Linking в Confluent Server и Kafka Connect с Confluent Replicator. Cluster Linking для Apache Kafka Связанные кластеры представляют собой 2 или более кластера в разных географических регионах. В отличие от топологии растянутого кластера,...

24Янв
2024

Мультирегиональная репликация Apache Kafka: кластерные топологии

Автор Анна Вичуговав категории Kafka

репликация кластера Apache Kafka, мультирегональная геораспределенная репликация Kafka, курсы по Kafka примеры обучение, Школа Больших Данных

Какую топологию может иметь кластер Apache Kafka при межрегиональной репликации по нескольким ЦОД и как это реализовать. Чем брокеры-наблюдатели отличаются от подписчиков в Confluent Server и при чем здесь конфигурация подтверждений acks в приложении-продюсере. Принципы репликации данных в Apache Kafka Будучи средством интеграции информационных систем в режиме реального времени, Apache...

23Янв
2024

Stateful-операторы в Apache Spark Structured Streaming

Автор Анна Вичуговав категории Spark

Spark Structured Streaming stateful operators watermark, потоковая обработка данных с Spark Structured Streaming, курсы Apache Spark? Spark Structured Streaming для дата-инженеров и разработчиков, Spark Structured Streaming примуры курсы обучение, Школа Больших Данных УЦ Коммерсант

Как выполнение нескольких stateful-операторов в одном потоке снижает стоимость обработки данных: возможности и ограничения Spark Structured Streaming. Про водяные знаки и состояния в потоковой передаче событий. Stateful-операторы и водяные знаки в потоковой обработке данных Благодаря распределенной обработке микропакетов в памяти Spark Structured Streaming позволяет обрабатывать огромные объемы данных очень быстро....

22Янв
2024

Движки таблиц в ClickHouse: что и когда выбирать

Автор Анна Вичуговав категории ClickHouse

ClickHouse движки, ClickHouse примеры курсы обучение, ClickHouse для инженера данных, ClickHouse Школа Больших Данных Учебный Центр Коммерсант

Одной из причин быстрой работы ClickHouse являются движки таблиц, оптимизированные на конкретные операции с данными. Сегодня рассмотрим, чем они отличаются и какой из них выбирать для разных сценариев. Движки БД ClickHouse Прежде чем разбираться с движками таблиц ClickHouse, вспомним само назначение этого термина. Движок БД или механизм хранения отвечает за...

20Янв
2024

Сколько стоит инфраструктура Apache Kafka: 2 главные статьи затрат

Автор Анна Вичуговав категории Kafka

администрирование Kafka, стоимость эксплуатации Kafka, Apache Kafka для администратора кластера примеры курсы обучение. Школа Больших Данных Учебный Центр Коммерсант

Какие инфраструктурные компоненты самые дорогие в эксплуатации популярной платформы потоковой передачи сообщений и как снизить затраты на сетевые ресурсы и хранилища данных при использовании Apache Kafka. TCO для Apache Kafka: что учитывать в расчете затрат Поскольку Apache Kafka используется для интеграции информационных систем в режиме реального времени, она становится критически...

16Янв
2024

3 вида представлений в ClickHouse

Автор Анна Вичуговав категории ClickHouse

ClickHouse представления и запросы, ClickHouse примеры курсы обучение, ClickHouse для инженера данных, ClickHouse Школа Больших Данных Учебный Центр Коммерсант

Чем материализованное представление в ClickHouse отличается от обычного, зачем нужны LIVE-представления и как их использовать. Примеры SQL-запросов с VIEW для самой популярной колоночной аналитической СУБД. Представления vs словари в ClickHouse Поскольку ClickHouse, как типовая колоночная СУБД, используется для аналитической обработки огромных объемов данных в реальном времени, вопрос ускорения вычислений для...

08Янв
2024

Как извлечь данные из реляционной базы: основные паттерны

Автор Анна Вичуговав категории Статьи

ETL инженерия данных, проектирование ETL-конвейеров с РСУБД, извлечение данных из БД, обучение дата-инженеров, курсы инженеров данных, ETL конвейер отслеживания изменений в РСУБД, Школа Больших Данных Учебный Центр Коммерсант

Большинство ETL-конвейеров извлекают данные из реляционных баз в пакетном или микропакетном режиме. Читайте далее, по каким шаблонам реализовать операции извлечения. Моментальные снимки: периодическая выгрузка данных из исходных таблиц Полная периодическая выгрузка данных из одной или нескольких таблиц – это, пожалуй, самый простой метод извлечения изменяемых данных. По своей сути результат полной...

07Янв
2024

3 условия соединения многораздельных потоков в Kafka Streams

Автор Анна Вичуговав категории Kafka

соединение потоков, потоки Kafka Streams , разработка Kafka Streams , Apache Kafka для разработчиков примеры курсы обучение. Школа Больших Данных Учебный Центр Коммерсант

Почему нельзя просто взять и соединить потоки Kafka Streams с разным числом разделов, и как это все-таки сделать без изменения конфигурации топика. Почему нельзя просто взять и соединить потоки Kafka Streams с разным числом разделов Kafka Streams – это клиентская Java-библиотека для разработки потоковых приложений, которые работают с данными, хранящимися...