Курсы Big Data, ClickHouse, Airflow,Greenplum, Kafka и Spark

31Янв
2024

4 способа реализации мультирегиональной репликации Apache Kafka

репликация кластера Apache Kafka Confluent, мультирегональная геораспределенная репликация Kafka, курсы по Kafka примеры обучение, Школа Больших Данных

Продолжая разговор про межрегиональную репликацию Apache Kafka, сегодня рассмотрим 4 способа ее реализации: мультирегиональный кластер, MirrorMaker 2, Cluster Linking в Confluent Server и Confluent Replicator. Чем георепликация Kafka с MirrorMaker 2 отличается от решений Confluent и что выбирать для различных сценариев. Мультирегиональный кластер Confluent Геораспределенная репликация реплицирует данные по кластерам...

30Янв
2024

Бесплатный митап «ELT в эпоху Big Data: что такое Data Build Tool и как это работает»

Автор Анна Вичуговав категории Новости

Школа Больших Данных запустила новый курс для инженеров данных по ETL/ELT-инструменту dbt. В поддержку нашего нового курса мы проводим бесплатный митап для дата-инженеров, аналитиков и разработчиков «ELT в эпоху Big Data: что такое Data Build Tool и как это работает». Митап состоится 6 марта 2024 года в 17:00 МСК. Мероприятие...

27Янв
2024

2 решения Confluent для мультирегиональной георепликации Apache Kafka

Автор Анна Вичуговав категории Kafka

Недавно мы писали про мультирегиональную репликацию Apache Kafka. Сегодня рассмотрим, как выполнить геораспределенную репликацию с помощью Cluster Linking в Confluent Server и Kafka Connect с Confluent Replicator. Cluster Linking для Apache Kafka Связанные кластеры представляют собой 2 или более кластера в разных географических регионах. В отличие от топологии растянутого кластера,...

26Янв
2024

5 советов начинающему дата-инженеру по AirFlow: личный опыт

Автор Анна Вичуговав категории AirFlow

обучение Apache AirFlow, курсы по AirFlow, обучение дата-инженеров, инженерия данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Как спроектировать DAG и выбрать способ обмена данными между задачами, где определить подключения и запросы к БД и что поможет избежать ада Python-зависимостей при использовании Apache AirFlow. Сегодня я расскажу своем личном опыте наступания на грабли при работе с этим оркестратором batch-процессов и уроках, которые из этого вынесла. 5 советов...

24Янв
2024

Мультирегиональная репликация Apache Kafka: кластерные топологии

Автор Анна Вичуговав категории Kafka

репликация кластера Apache Kafka, мультирегональная геораспределенная репликация Kafka, курсы по Kafka примеры обучение, Школа Больших Данных

Какую топологию может иметь кластер Apache Kafka при межрегиональной репликации по нескольким ЦОД и как это реализовать. Чем брокеры-наблюдатели отличаются от подписчиков в Confluent Server и при чем здесь конфигурация подтверждений acks в приложении-продюсере. Принципы репликации данных в Apache Kafka Будучи средством интеграции информационных систем в режиме реального времени, Apache...

23Янв
2024

Stateful-операторы в Apache Spark Structured Streaming

Автор Анна Вичуговав категории Spark

Spark Structured Streaming stateful operators watermark, потоковая обработка данных с Spark Structured Streaming, курсы Apache Spark? Spark Structured Streaming для дата-инженеров и разработчиков, Spark Structured Streaming примуры курсы обучение, Школа Больших Данных УЦ Коммерсант

Как выполнение нескольких stateful-операторов в одном потоке снижает стоимость обработки данных: возможности и ограничения Spark Structured Streaming. Про водяные знаки и состояния в потоковой передаче событий. Stateful-операторы и водяные знаки в потоковой обработке данных Благодаря распределенной обработке микропакетов в памяти Spark Structured Streaming позволяет обрабатывать огромные объемы данных очень быстро....

22Янв
2024

Движки таблиц в ClickHouse: что и когда выбирать

Автор Анна Вичуговав категории ClickHouse

ClickHouse движки, ClickHouse примеры курсы обучение, ClickHouse для инженера данных, ClickHouse Школа Больших Данных Учебный Центр Коммерсант

Одной из причин быстрой работы ClickHouse являются движки таблиц, оптимизированные на конкретные операции с данными. Сегодня рассмотрим, чем они отличаются и какой из них выбирать для разных сценариев. Движки БД ClickHouse Прежде чем разбираться с движками таблиц ClickHouse, вспомним само назначение этого термина. Движок БД или механизм хранения отвечает за...

21Янв
2024

Как настроить свой Python-процессор Apache NiFi

Автор Анна Вичуговав категории NiFi

Что необходимо реализовать в собственном процессоре, написанном на Python, чтобы запускать его в Apache NiFi. Классы и методы для настройки свойств, а также отношения и состояния жизненного цикла. Классы и методы для настройки свойств Предустановленные обработчики данных или процессоры (processor) Apache NiFi, написанные на Java, можно настроить прямо в GUI,...

20Янв
2024

Сколько стоит инфраструктура Apache Kafka: 2 главные статьи затрат

Автор Анна Вичуговав категории Kafka

администрирование Kafka, стоимость эксплуатации Kafka, Apache Kafka для администратора кластера примеры курсы обучение. Школа Больших Данных Учебный Центр Коммерсант

Какие инфраструктурные компоненты самые дорогие в эксплуатации популярной платформы потоковой передачи сообщений и как снизить затраты на сетевые ресурсы и хранилища данных при использовании Apache Kafka. TCO для Apache Kafka: что учитывать в расчете затрат Поскольку Apache Kafka используется для интеграции информационных систем в режиме реального времени, она становится критически...

19Янв
2024

Бесплатный митап «Scala как язык разработки Spark-приложений»

Автор Анна Вичуговав категории Новости

Школа Больших Данных продолжает серию митапов по Apache Spark. Митап состоится 14 февраля 2024 года в 17:00 МСК. Мероприятие рассчитано на инженеров данных, разработчиков и просто интересующихся. Будучи мощным фреймворком разработки распределенных приложений, Apache Spark позволяет писать код на нескольких языках программирования: Scala, Java, R, Python. Сам фреймворк написан на...

16Янв
2024

3 вида представлений в ClickHouse

Автор Анна Вичуговав категории ClickHouse

ClickHouse представления и запросы, ClickHouse примеры курсы обучение, ClickHouse для инженера данных, ClickHouse Школа Больших Данных Учебный Центр Коммерсант

Чем материализованное представление в ClickHouse отличается от обычного, зачем нужны LIVE-представления и как их использовать. Примеры SQL-запросов с VIEW для самой популярной колоночной аналитической СУБД. Представления vs словари в ClickHouse Поскольку ClickHouse, как типовая колоночная СУБД, используется для аналитической обработки огромных объемов данных в реальном времени, вопрос ускорения вычислений для...

15Янв
2024

Новая услуга от Школы Больших Данных: консультации наших экспертов по вашим проектам

Автор Анна Вичуговав категории Новости

Консалтинг и аутстаффинг для Big Data, консалтинг по архитектуре и проектированию Big Data, консультационные услуги по инженерии и аналитике больших данных, Школа больших Данных Учебный центр Коммерсант

Коллеги, в конце 2023 годы мы запустили новую услугу - консалтинг для проектов Big Data. Теперь вы можете быстро воспользоваться опытом и знаниями наших экспертов, не расширяя штат своей компании. Наши преподаватели помогут вам в решении следующих задач: анализ возможностей улучшения вашего бизнеса, процессов и систем с помощью технологий Big...

14Янв
2024

Как написать свой процессор Apache NiFi на Python: обзор 2-х API

Автор Анна Вичуговав категории NiFi

Apache NiFi для дата-инженера, инженерия данных с Apache NiFi, Apache NiFi примеры курсы обучение, Python в Apache NiFi, Школа больших Данных Учебный центр Коммерсант

Продолжая разговор про рассмотренные в прошлой статье принципы взаимодействия процессов Python с Java, на которой написан Apache NiFi, сегодня разберем, как использовать это на практике. Пишем свои процессоры, используя классы FlowFileTransform и RecordTransform. Python-процессор Apache NiFi на базе FlowFileTransform Хотя Apache NiFi предоставляет более 300 процессоров для вычислительных операций и...

09Янв
2024

Особенности разработки процессоров Apache NiFi на Python

Автор Анна Вичуговав категории NiFi

Недавно мы писали про Nifi-Python-Api —клиентский SDK, поддерживающий Python для работы с Apache NiFi. Сегодня на примере разработки процессоров более подробно разберем принципы взаимодействия процессов Python с Java, на которой написан Apache NiFi. Принципы работы Python-кода в Java-среде Apache NiFi Поскольку Apache NiFi написан на Java, именно этот язык предпочтителен...

08Янв
2024

Как извлечь данные из реляционной базы: основные паттерны

Автор Анна Вичуговав категории Статьи

ETL инженерия данных, проектирование ETL-конвейеров с РСУБД, извлечение данных из БД, обучение дата-инженеров, курсы инженеров данных, ETL конвейер отслеживания изменений в РСУБД, Школа Больших Данных Учебный Центр Коммерсант

Большинство ETL-конвейеров извлекают данные из реляционных баз в пакетном или микропакетном режиме. Читайте далее, по каким шаблонам реализовать операции извлечения. Моментальные снимки: периодическая выгрузка данных из исходных таблиц Полная периодическая выгрузка данных из одной или нескольких таблиц – это, пожалуй, самый простой метод извлечения изменяемых данных. По своей сути результат полной...

07Янв
2024

3 условия соединения многораздельных потоков в Kafka Streams

Автор Анна Вичуговав категории Kafka

соединение потоков, потоки Kafka Streams , разработка Kafka Streams , Apache Kafka для разработчиков примеры курсы обучение. Школа Больших Данных Учебный Центр Коммерсант

Почему нельзя просто взять и соединить потоки Kafka Streams с разным числом разделов, и как это все-таки сделать без изменения конфигурации топика. Почему нельзя просто взять и соединить потоки Kafka Streams с разным числом разделов Kafka Streams – это клиентская Java-библиотека для разработки потоковых приложений, которые работают с данными, хранящимися...

06Янв
2024

Управление зависимостями: 5 подходов к проектированию конвейеров обработки данных

Автор Анна Вичуговав категории AirFlow

инженерия данных, проектирование конвейеров обработки данных, Apache AirFlow для дата-инженера, ETL-конвейеры, обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как организовать упрощенное и продвинутое управление зависимостями между разными ETL-конвейерами, когда нужна централизованная оркестрация рабочих процессов и чем хороша стандартизация активов данных, отчетов и вычислительных процедур. Лучшие практики проектирования конвейеров для дата-инженера. Проектирование дата-конвейеров с минимальными зависимостями Для многих компаний, выстроивших процессы обработки данных в виде конвейеров, актуальна проблема управления...

05Янв
2024

Подходы к реализации CDC на примере Greenplum и PostgreSQL

Автор Анна Вичуговав категории Greenplum

CDC Greenplum PostgreSQL, Change Data Capture Greenplum PostgreSQL примеры курсы обучение, захват измененных данных примеры реализации, обучение дата-инженеров, курсы инженеров данных, ETL конвейер отслеживания изменений в РСУБД, Школа Больших Данных Учебный Центр Коммерсант

Методы отслеживания изменений в реляционных базах данных: столбцы аудиты, триггеры DDL-событий и WAL-журналы. Плюсы и минусы этих подходов, а также примеры реализации в Greenplum и PostgreSQL. 3 подхода к извлечению данных из реляционных баз Извлечение данных из реляционных баз является наиболее распространенной операцией в ETL-процессах. Поэтому при проектировании конвейеров обработки...