Курсы Trino, ClickHouse, Airflow, Kafka, Машинное обучение и Искусственный Интеллект курсы

27Янв
2024

2 решения Confluent для мультирегиональной георепликации Apache Kafka

репликация кластера Apache Kafka Confluent, мультирегональная геораспределенная репликация Kafka, курсы по Kafka примеры обучение, Школа Больших Данных

Недавно мы писали про мультирегиональную репликацию Apache Kafka. Сегодня рассмотрим, как выполнить геораспределенную репликацию с помощью Cluster Linking в Confluent Server и Kafka Connect с Confluent Replicator. Cluster Linking для Apache Kafka Связанные кластеры представляют собой 2 или более кластера в разных географических регионах. В отличие от топологии растянутого кластера,...

26Янв
2024

5 советов начинающему дата-инженеру по AirFlow: личный опыт

Автор Анна Вичуговав категории AirFlow

обучение Apache AirFlow, курсы по AirFlow, обучение дата-инженеров, инженерия данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Как спроектировать DAG и выбрать способ обмена данными между задачами, где определить подключения и запросы к БД и что поможет избежать ада Python-зависимостей при использовании Apache AirFlow. Сегодня я расскажу своем личном опыте наступания на грабли при работе с этим оркестратором batch-процессов и уроках, которые из этого вынесла. 5 советов...

24Янв
2024

Мультирегиональная репликация Apache Kafka: кластерные топологии

Автор Анна Вичуговав категории Kafka

репликация кластера Apache Kafka, мультирегональная геораспределенная репликация Kafka, курсы по Kafka примеры обучение, Школа Больших Данных

Какую топологию может иметь кластер Apache Kafka при межрегиональной репликации по нескольким ЦОД и как это реализовать. Чем брокеры-наблюдатели отличаются от подписчиков в Confluent Server и при чем здесь конфигурация подтверждений acks в приложении-продюсере. Принципы репликации данных в Apache Kafka Будучи средством интеграции информационных систем в режиме реального времени, Apache...

23Янв
2024

Stateful-операторы в Apache Spark Structured Streaming

Автор Анна Вичуговав категории Spark

Spark Structured Streaming stateful operators watermark, потоковая обработка данных с Spark Structured Streaming, курсы Apache Spark? Spark Structured Streaming для дата-инженеров и разработчиков, Spark Structured Streaming примуры курсы обучение, Школа Больших Данных УЦ Коммерсант

Как выполнение нескольких stateful-операторов в одном потоке снижает стоимость обработки данных: возможности и ограничения Spark Structured Streaming. Про водяные знаки и состояния в потоковой передаче событий. Stateful-операторы и водяные знаки в потоковой обработке данных Благодаря распределенной обработке микропакетов в памяти Spark Structured Streaming позволяет обрабатывать огромные объемы данных очень быстро....

22Янв
2024

Движки таблиц в ClickHouse: что и когда выбирать

Автор Анна Вичуговав категории ClickHouse

ClickHouse движки, ClickHouse примеры курсы обучение, ClickHouse для инженера данных, ClickHouse Школа Больших Данных Учебный Центр Коммерсант

Одной из причин быстрой работы ClickHouse являются движки таблиц, оптимизированные на конкретные операции с данными. Сегодня рассмотрим, чем они отличаются и какой из них выбирать для разных сценариев. Движки БД ClickHouse Прежде чем разбираться с движками таблиц ClickHouse, вспомним само назначение этого термина. Движок БД или механизм хранения отвечает за...

21Янв
2024

Как настроить свой Python-процессор Apache NiFi

Автор Анна Вичуговав категории NiFi

Что необходимо реализовать в собственном процессоре, написанном на Python, чтобы запускать его в Apache NiFi. Классы и методы для настройки свойств, а также отношения и состояния жизненного цикла. Классы и методы для настройки свойств Предустановленные обработчики данных или процессоры (processor) Apache NiFi, написанные на Java, можно настроить прямо в GUI,...

20Янв
2024

Сколько стоит инфраструктура Apache Kafka: 2 главные статьи затрат

Автор Анна Вичуговав категории Kafka

администрирование Kafka, стоимость эксплуатации Kafka, Apache Kafka для администратора кластера примеры курсы обучение. Школа Больших Данных Учебный Центр Коммерсант

Какие инфраструктурные компоненты самые дорогие в эксплуатации популярной платформы потоковой передачи сообщений и как снизить затраты на сетевые ресурсы и хранилища данных при использовании Apache Kafka. TCO для Apache Kafka: что учитывать в расчете затрат Поскольку Apache Kafka используется для интеграции информационных систем в режиме реального времени, она становится критически...

16Янв
2024

3 вида представлений в ClickHouse

Автор Анна Вичуговав категории ClickHouse

ClickHouse представления и запросы, ClickHouse примеры курсы обучение, ClickHouse для инженера данных, ClickHouse Школа Больших Данных Учебный Центр Коммерсант

Чем материализованное представление в ClickHouse отличается от обычного, зачем нужны LIVE-представления и как их использовать. Примеры SQL-запросов с VIEW для самой популярной колоночной аналитической СУБД. Представления vs словари в ClickHouse Поскольку ClickHouse, как типовая колоночная СУБД, используется для аналитической обработки огромных объемов данных в реальном времени, вопрос ускорения вычислений для...

14Янв
2024

Как написать свой процессор Apache NiFi на Python: обзор 2-х API

Автор Анна Вичуговав категории NiFi

Apache NiFi для дата-инженера, инженерия данных с Apache NiFi, Apache NiFi примеры курсы обучение, Python в Apache NiFi, Школа больших Данных Учебный центр Коммерсант

Продолжая разговор про рассмотренные в прошлой статье принципы взаимодействия процессов Python с Java, на которой написан Apache NiFi, сегодня разберем, как использовать это на практике. Пишем свои процессоры, используя классы FlowFileTransform и RecordTransform. Python-процессор Apache NiFi на базе FlowFileTransform Хотя Apache NiFi предоставляет более 300 процессоров для вычислительных операций и...

09Янв
2024

Особенности разработки процессоров Apache NiFi на Python

Автор Анна Вичуговав категории NiFi

Недавно мы писали про Nifi-Python-Api —клиентский SDK, поддерживающий Python для работы с Apache NiFi. Сегодня на примере разработки процессоров более подробно разберем принципы взаимодействия процессов Python с Java, на которой написан Apache NiFi. Принципы работы Python-кода в Java-среде Apache NiFi Поскольку Apache NiFi написан на Java, именно этот язык предпочтителен...

08Янв
2024

Как извлечь данные из реляционной базы: основные паттерны

Автор Анна Вичуговав категории Статьи

ETL инженерия данных, проектирование ETL-конвейеров с РСУБД, извлечение данных из БД, обучение дата-инженеров, курсы инженеров данных, ETL конвейер отслеживания изменений в РСУБД, Школа Больших Данных Учебный Центр Коммерсант

Большинство ETL-конвейеров извлекают данные из реляционных баз в пакетном или микропакетном режиме. Читайте далее, по каким шаблонам реализовать операции извлечения. Моментальные снимки: периодическая выгрузка данных из исходных таблиц Полная периодическая выгрузка данных из одной или нескольких таблиц – это, пожалуй, самый простой метод извлечения изменяемых данных. По своей сути результат полной...

07Янв
2024

3 условия соединения многораздельных потоков в Kafka Streams

Автор Анна Вичуговав категории Kafka

соединение потоков, потоки Kafka Streams , разработка Kafka Streams , Apache Kafka для разработчиков примеры курсы обучение. Школа Больших Данных Учебный Центр Коммерсант

Почему нельзя просто взять и соединить потоки Kafka Streams с разным числом разделов, и как это все-таки сделать без изменения конфигурации топика. Почему нельзя просто взять и соединить потоки Kafka Streams с разным числом разделов Kafka Streams – это клиентская Java-библиотека для разработки потоковых приложений, которые работают с данными, хранящимися...

06Янв
2024

Управление зависимостями: 5 подходов к проектированию конвейеров обработки данных

Автор Анна Вичуговав категории AirFlow

инженерия данных, проектирование конвейеров обработки данных, Apache AirFlow для дата-инженера, ETL-конвейеры, обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как организовать упрощенное и продвинутое управление зависимостями между разными ETL-конвейерами, когда нужна централизованная оркестрация рабочих процессов и чем хороша стандартизация активов данных, отчетов и вычислительных процедур. Лучшие практики проектирования конвейеров для дата-инженера. Проектирование дата-конвейеров с минимальными зависимостями Для многих компаний, выстроивших процессы обработки данных в виде конвейеров, актуальна проблема управления...

05Янв
2024

Подходы к реализации CDC на примере Greenplum и PostgreSQL

Автор Анна Вичуговав категории Greenplum

CDC Greenplum PostgreSQL, Change Data Capture Greenplum PostgreSQL примеры курсы обучение, захват измененных данных примеры реализации, обучение дата-инженеров, курсы инженеров данных, ETL конвейер отслеживания изменений в РСУБД, Школа Больших Данных Учебный Центр Коммерсант

Методы отслеживания изменений в реляционных базах данных: столбцы аудиты, триггеры DDL-событий и WAL-журналы. Плюсы и минусы этих подходов, а также примеры реализации в Greenplum и PostgreSQL. 3 подхода к извлечению данных из реляционных баз Извлечение данных из реляционных баз является наиболее распространенной операцией в ETL-процессах. Поэтому при проектировании конвейеров обработки...

30Дек
2023

Что нас ждет в Apache Flink 2.0: обзор главных фич мажорного релиза

Автор Анна Вичуговав категории Flink

Apache Flink 2.0 release overview,Apache Flink для разработчиков, Apache Flink для дата-инженеров, Apache Flink примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

В конце декабря принято строить планы на следующие 12 месяцев. Посмотрим, что разработчики Apache Flink обещают реализовать в релизе 2.0, который должен выйти к концу 2024 года. Внедрение многоуровневой системы хранения состояний В Apache Flink 2.0 будет улучшена система управления хранилищем состояния путем перехода к полностью разделенной архитектуре хранения и...

29Дек
2023

Динамическое и статическое членство потребителей Apache Kafka

Автор Анна Вичуговав категории Kafka

ребалансировка потребителей Apache Kafka, группы потребителей Kafka, Kafka примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Чем group.instance.id отличается от group.id, зачем нужен member.id, каковы преимущества статического членства в группе потребителей перед динамическим и какие механизмы Kafka обеспечивают ребалансировку клиентских приложений. Еще раз про группы потребителей Apache Kafka Напомним, группы потребителей в Apache Kafka нужны для логического объединения нескольких потребителей с целью повышения надежности потоковой системы....

28Дек
2023

Как Apache Spark планирует и запускает задания в кластере

Автор Анна Вичуговав категории Spark

Планирование запуск заданий Spark в кластере, Apache Spark Для разработчика, разработка Spark-приложений, Apache Spark для дата-инженера, Школа Больших Данных Учебный Центр Коммерсант

Какие механизмы и компоненты позволяют Apache Spark планировать задания и эффективно утилизировать ресурсы кластера. Чем статическое разделение ресурсов отличается от динамического, и как настроить планировщик для ускорения вычислений. Планирование заданий в Apache Spark Распределенный характер Apache Spark предполагает наличие инструментов для разделения ресурсов между вычислениями. В режиме кластера каждое приложение...

27Дек
2023

Apache AirFlow 2.8: обзор предновогоднего релиза

Автор Анна Вичуговав категории AirFlow

AirFlow 2.8, обзор релиза AirFlow 2.8, AirFlow примеры курсы обучение, AirFlow для дата-инженера, новинки AirFlow 2.8, Школа Больших Данных Учебный Центр Коммерсант

14 декабря 2023 года вышел очередной релиз Apache AirFlow, который содержит более 20 новых фичей, 60 улучшений и 50 исправлений. Знакомимся с самыми главными для дата-инженера новинками выпуска 2.8. ТОП-10 новинок Apache AirFlow 2.8 Многие обновления в версии 2.8 направлены на расширение возможностей создания DAG, улучшение ведения журналов и исправление...

26Дек
2023

Как повысить эффективность утилизации диска в Greenplum с расширением Diskquota

Автор Анна Вичуговав категории Greenplum

Greenplum администрирование примеры курсы обучение, администратор Greenplum, использование диска в Greenplum, Школа Больших Данных Учебный Центр Коммерсант

Сегодня познакомимся с возможностями и ограничениями open-source проект Diskquota, направленного на оптимизацию управления дисковым пространством базы данных Greenplum. Зачем ограничивать использование диска в Greenplum и как это сделать Эффективная утилизация аппаратных ресурсов, в т.ч. жесткого диска – один из факторов, позволяющих ускорить работу любой СУБД, в т.ч. Greenplum. Будучи популярным...

25Дек
2023

Анализ временных рядов в ClickHouse и Greenplum

Автор Анна Вичуговав категории ClickHouse, Greenplum

Анализ данных временных рядов, ClickHouse vs Greenplum PostgreSQL, TimescaleDB vs ClickHouse, ClickHouse Greenplum примеры курсы обучение, Школа больших данных учебный центр Коммерсант

Анализ временных рядов нужен не только в Data Science, но и в мониторинге системных событий. Чем столбец с отметками времени в ClickHouse отличается от гипертаблиц в PostgreSQL и Greenplum c расширением TimescaleDB, и что выбирать для аналитики больших данных. ClickHouse для анализа временных рядов ClickHouse является колоночной СУБД для аналитической...