Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

22Янв
2024

Движки таблиц в ClickHouse: что и когда выбирать

Автор Анна Вичуговав категории ClickHouse

ClickHouse движки, ClickHouse примеры курсы обучение, ClickHouse для инженера данных, ClickHouse Школа Больших Данных Учебный Центр Коммерсант

Одной из причин быстрой работы ClickHouse являются движки таблиц, оптимизированные на конкретные операции с данными. Сегодня рассмотрим, чем они отличаются и какой из них выбирать для разных сценариев. Движки БД ClickHouse Прежде чем разбираться с движками таблиц ClickHouse, вспомним само назначение этого термина. Движок БД или механизм хранения отвечает за...

21Янв
2024

Как настроить свой Python-процессор Apache NiFi

Автор Анна Вичуговав категории NiFi

Что необходимо реализовать в собственном процессоре, написанном на Python, чтобы запускать его в Apache NiFi. Классы и методы для настройки свойств, а также отношения и состояния жизненного цикла. Классы и методы для настройки свойств Предустановленные обработчики данных или процессоры (processor) Apache NiFi, написанные на Java, можно настроить прямо в GUI,...

20Янв
2024

Сколько стоит инфраструктура Apache Kafka: 2 главные статьи затрат

Автор Анна Вичуговав категории Kafka

администрирование Kafka, стоимость эксплуатации Kafka, Apache Kafka для администратора кластера примеры курсы обучение. Школа Больших Данных Учебный Центр Коммерсант

Какие инфраструктурные компоненты самые дорогие в эксплуатации популярной платформы потоковой передачи сообщений и как снизить затраты на сетевые ресурсы и хранилища данных при использовании Apache Kafka. TCO для Apache Kafka: что учитывать в расчете затрат Поскольку Apache Kafka используется для интеграции информационных систем в режиме реального времени, она становится критически...

16Янв
2024

3 вида представлений в ClickHouse

Автор Анна Вичуговав категории ClickHouse

ClickHouse представления и запросы, ClickHouse примеры курсы обучение, ClickHouse для инженера данных, ClickHouse Школа Больших Данных Учебный Центр Коммерсант

Чем материализованное представление в ClickHouse отличается от обычного, зачем нужны LIVE-представления и как их использовать. Примеры SQL-запросов с VIEW для самой популярной колоночной аналитической СУБД. Представления vs словари в ClickHouse Поскольку ClickHouse, как типовая колоночная СУБД, используется для аналитической обработки огромных объемов данных в реальном времени, вопрос ускорения вычислений для...

14Янв
2024

Как написать свой процессор Apache NiFi на Python: обзор 2-х API

Автор Анна Вичуговав категории NiFi

Apache NiFi для дата-инженера, инженерия данных с Apache NiFi, Apache NiFi примеры курсы обучение, Python в Apache NiFi, Школа больших Данных Учебный центр Коммерсант

Продолжая разговор про рассмотренные в прошлой статье принципы взаимодействия процессов Python с Java, на которой написан Apache NiFi, сегодня разберем, как использовать это на практике. Пишем свои процессоры, используя классы FlowFileTransform и RecordTransform. Python-процессор Apache NiFi на базе FlowFileTransform Хотя Apache NiFi предоставляет более 300 процессоров для вычислительных операций и...

09Янв
2024

Особенности разработки процессоров Apache NiFi на Python

Автор Анна Вичуговав категории NiFi

Недавно мы писали про Nifi-Python-Api —клиентский SDK, поддерживающий Python для работы с Apache NiFi. Сегодня на примере разработки процессоров более подробно разберем принципы взаимодействия процессов Python с Java, на которой написан Apache NiFi. Принципы работы Python-кода в Java-среде Apache NiFi Поскольку Apache NiFi написан на Java, именно этот язык предпочтителен...

08Янв
2024

Как извлечь данные из реляционной базы: основные паттерны

Автор Анна Вичуговав категории Статьи

ETL инженерия данных, проектирование ETL-конвейеров с РСУБД, извлечение данных из БД, обучение дата-инженеров, курсы инженеров данных, ETL конвейер отслеживания изменений в РСУБД, Школа Больших Данных Учебный Центр Коммерсант

Большинство ETL-конвейеров извлекают данные из реляционных баз в пакетном или микропакетном режиме. Читайте далее, по каким шаблонам реализовать операции извлечения. Моментальные снимки: периодическая выгрузка данных из исходных таблиц Полная периодическая выгрузка данных из одной или нескольких таблиц – это, пожалуй, самый простой метод извлечения изменяемых данных. По своей сути результат полной...

07Янв
2024

3 условия соединения многораздельных потоков в Kafka Streams

Автор Анна Вичуговав категории Kafka

соединение потоков, потоки Kafka Streams , разработка Kafka Streams , Apache Kafka для разработчиков примеры курсы обучение. Школа Больших Данных Учебный Центр Коммерсант

Почему нельзя просто взять и соединить потоки Kafka Streams с разным числом разделов, и как это все-таки сделать без изменения конфигурации топика. Почему нельзя просто взять и соединить потоки Kafka Streams с разным числом разделов Kafka Streams – это клиентская Java-библиотека для разработки потоковых приложений, которые работают с данными, хранящимися...

06Янв
2024

Управление зависимостями: 5 подходов к проектированию конвейеров обработки данных

Автор Анна Вичуговав категории AirFlow

инженерия данных, проектирование конвейеров обработки данных, Apache AirFlow для дата-инженера, ETL-конвейеры, обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как организовать упрощенное и продвинутое управление зависимостями между разными ETL-конвейерами, когда нужна централизованная оркестрация рабочих процессов и чем хороша стандартизация активов данных, отчетов и вычислительных процедур. Лучшие практики проектирования конвейеров для дата-инженера. Проектирование дата-конвейеров с минимальными зависимостями Для многих компаний, выстроивших процессы обработки данных в виде конвейеров, актуальна проблема управления...

05Янв
2024

Подходы к реализации CDC на примере Greenplum и PostgreSQL

Автор Анна Вичуговав категории Greenplum

CDC Greenplum PostgreSQL, Change Data Capture Greenplum PostgreSQL примеры курсы обучение, захват измененных данных примеры реализации, обучение дата-инженеров, курсы инженеров данных, ETL конвейер отслеживания изменений в РСУБД, Школа Больших Данных Учебный Центр Коммерсант

Методы отслеживания изменений в реляционных базах данных: столбцы аудиты, триггеры DDL-событий и WAL-журналы. Плюсы и минусы этих подходов, а также примеры реализации в Greenplum и PostgreSQL. 3 подхода к извлечению данных из реляционных баз Извлечение данных из реляционных баз является наиболее распространенной операцией в ETL-процессах. Поэтому при проектировании конвейеров обработки...