Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

21Окт
2024

Машрутизация FlowFile в Apache NiFi на основе атрибутов

NiFI процессоры атрибуты, NiFI примеры курсы обучение, NiFI для инженера данных, потоковая обработка с NiFI, Школа Больших Данных Учебный Центр Коммерсант

Что такое атрибуты FlowFile, какие процессоры есть в Apache NiFi для работы с ними и как маршрутизировать поток данных на основе пользовательских свойств. Атрибуты FlowFile и процессоры для работы с ними Основной единицей данных, которая перемещается через систему в Apache NiFi является FlowFile. Он представляет собой контейнер для данных и...

20Окт
2024

Миграция Apache Kafka с Zookeeper на KRaft

Автор Анна Вичуговав категории Kafka

Kafka администрирование кластера курсы примеры обучение, Kafka для разработчика, Kafka примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как перевести кластер Kafka с ZooKeeper на KRaft, чтобы обеспечить управление метаданными с помощью этого протокола консенсуса: последовательность действий и настройки конфигураций. Зачем и как переводить Apache Kafka с Zookeeper на KRaft Напомним, протокол KRaft, который заменяет ZooKeeper для управления метаданными и консенсуса кластера Kafka, был введен еще в версии...

18Окт
2024

Как Apache Flink восстанавливает пакетные задания после сбоя JobMaster?

Автор Анна Вичуговав категории Flink

курсы Apache Flink, примеры Apache Flink, обработка данных Apache Flink, обучение разработчиков и дата-инженеров Apache Flink

Зачем в Apache Flink 1.20 добавлена новая функция восстановления пакетных заданий после сбоя JobMaster, как она работает и какие параметры надо настроить для повышения ее эффективности. Восстановление пакетных заданий Flink после сбоя JobMaster Как и любой фреймворк стека Big Data, Apache Flink включает множество компонентов, каждый из которых выполняет конкретную...

16Окт
2024

Зачем вам Chdb или как работать с Clickhouse без развертывания сервера СУБД

Автор Анна Вичуговав категории ClickHouse

ClickHouse примеры курсы обучение, инженерия данных с ClickHouse, работа с ClickHouse , Школа Больших Данных Учебный центр Коммерсант

Что такое Chdb, зачем нужна эта библиотека и как ее использовать в коде Python-приложения для анализа больших данных в ClickHouse без разворачивания полноценного сервера этой колоночной СУБД. Как и зачем работать с ClickHouse без сервера СУБД ClickHouse является мощным инструментом аналитики больших данных, который требует соответствующей инфраструктуры. Однако, иногда нужно...

14Окт
2024

Идемпотентность и волатильность функций в Greenplum и PostgreSQL

Автор Анна Вичуговав категории Greenplum

обучение Greenplum, Greenplum разработка, Greenplum курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Что такое волатильные функции, зачем они нужны и чем опасны: разбираем на примере Greenplum и PostgreSQL. К чему приведет некорректное использование атрибутов изменчивости в SQL-запросе или UDF-функции распределенной MPP-СУБД. Что такое волатильность функции и почему это важно для Greenplum Волатильной или изменчивой считается функция, значение которой может изменяться даже в...

12Окт
2024

Ротация лог-файлов приложений Apache Spark

Автор Анна Вичуговав категории Spark

Spark логи, Spark разработка примеры курсы обучение, Spark для дата-инженера и разработчика, обучение Apache Spark Школа Больших Данных Учебный Центр Коммерсант

Зачем включать ротацию лог-файлов потоковых приложений Apache Spark, какие конфигурации помогут ее настроить и для чего сжимать файлы журналов в длительных заданиях. Чем полезна ротация лог-файлов Spark-приложений и как ее настроить Об общих принципах логирования системных событий в приложениях Apache Spark мы уже рассказывали здесь. В этой статье подробнее разберем...

10Окт
2024

Многопользовательское развертывание Apache AirFlow: проблемы и решения

Автор Анна Вичуговав категории AirFlow

Apache AirFlow примеры курсы обучение, Apache AirFlow развертывание администрирование оптимизация, Apache AirFlow для дата-инженеров и администраторов, Школа Больших данных Учебный центр Коммерсант

Что не так с работой Apache AirFlow в многопользовательской среде, зачем предоставлять каждой команде свое развертывание ETL-фреймворка, каковы недостатки этого решения и как организовать мультитенантный кластер. Почему Apache Airflow не предназначен для многопользовательского использования В современной дата-инженерии Apache AirFlow стал наиболее популярным инструментом для пакетных ETL-процессов. Чтобы использовать его наиболее...

05Окт
2024

Интеграция приложений Apache Spark с облачными хранилищами

Автор Анна Вичуговав категории Spark

Spark HDFS S3. Spark разработка примеры курсы обучение, Spark для дата-инженера и разработчика, обучение Apache Spark Школа Больших Данных Учебный Центр Коммерсант

Чем объектное хранилище данных отличается от классической файловой системы POSIX, как это влияет на разработку Spark-приложений, почему операция переименования снижает производительность облачных вычислений и что поможет ее избежать. Еще раз об отличиях объектных и файловых хранилищ и как это влияет на приложения Spark Будучи компонентом экосистемы Apache Hadoop, фреймворк Spark...

03Окт
2024

5 причин использовать Clickhouse для ML-задач

Автор Анна Вичуговав категории ClickHouse, Machine Learning

ClickHouse Feature Store, ML ClickHouse для дата-инженера, MachineLearning Clickhouse примеры курсы обучение, DWH ClickHouse, Школа Больших Данных Учебный Центр Коммерсант

Что такое хранилище признаков, зачем это нужно в машинном обучении, каковы его главные компоненты и как использовать ClickHouse в качестве Feature Store для ML-задач. Хранилище признаков для машинного обучения: архитектура и принципы работы Feature Store Будучи колоночной базой данных, ClickHouse отлично подходит на роль хранилища фичей (Feature Store) для задач...

01Окт
2024

Разделение DataStream в Apache Flink на побочные выходные потоки

Автор Анна Вичуговав категории Flink

Flink примеры курсы обучение, Apache Flink для разработчика и дата-инженера, Школа больших Данных Учебный центр Коммерсант

Что такое дополнительный выходной поток DataStream в Apache Flink, зачем это нужно, чем механизм SideOutput лучше операторов filter и split, а также как его использовать: примеры на Python. Что такое дополнительный выходной поток DataStream в Apache Flink и зачем это нужно Хотя выходные результаты большинства операторов API DataStream в Apache...