Курсы Big Data, Hadoop, Arenadata, Kafka и Spark

18Май

Интеграция ClickHouse с Apache NiFi

Автор Анна Вичуговав категории ClickHouse, NiFi

Как прочитать данные из ClickHouse в Apache NiFi или загрузить их в таблицу колоночной СУБД: настройки подключения, использование процессоров и тонкости потоковой интеграции. Подключение к ClickHouse из Apache NiFi Как и интеграция ClickHouse с Apache AirFlow, связь этой колоночной СУБД с приложением NiFi реализуется с помощью решения сообщества, средствами самого...

17Май

Внешние ресурсы и пользовательская обработка отказов в Apache Flink

Автор Анна Вичуговав категории Flink

Flink плагины, Flink разработка, Apache Flink дата-инженерия, Apache Flink примеры курсы обучение, разработка Flink -приложений, Flink для инженеров данных и разработчиков, Школа Больших Данных Учебный Центр Коммерсант

Как расширить возможности Apache Flink с помощью дополнительных плагинов: подключение внешних ресурсов и обогащение отказов пользовательскими метками. Разбираемся с продвинутыми настройками для эффективной эксплуатации фреймворка. Внешние ресурсы Apache Flink Помимо процессора и памяти, многим рабочим нагрузкам также требуются другие ресурсы, например, графические процессоры для глубокого обучения. Для поддержки внешних ресурсов...

15Май

Управление ресурсами и планирование рабочей нагрузки в ClickHouse

Автор Анна Вичуговав категории ClickHouse

ClickHouse обучение примеры курсы, аналитика данных с ClickHouse, использование ClickHouse, интеграция ClickHouse, Школа Больших Данных Учебный Центр Коммерсант

Как эффективно распределять и использовать ресурсы ClickHouse, зачем ограничивать возможности пользователей с помощью квот и классифицировать рабочие нагрузки. Управление ресурсами в ClickHouse Благодаря своей децентрализованной архитектуре ClickHouse, когда один экземпляр включает несколько серверов, к которым напрямую приходят запросы пользователей, эта колоночная СУБД работает очень быстро. Для репликации данных и выполнения...

14Май

Изоляция приложений Apache Spark в одной среде Databricks с Lakeguard

Автор Анна Вичуговав категории Spark

Spark Lakeguard Databricks, архитектура и безопасность платформы данных, архитектура и безопасность Spark, Spark примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Проблемы управления данными в мультиарендной среде или как Databricks решил изолировать клиентские приложения Apache Spark на общей виртуальной машине Java друг от друга и от самого фреймворка (драйвера и исполнителей). Знакомство с Lakeguard на базе каталога Unity. Проблемы управления данными в мультитенантной среде Компания Databricks не просто развивает и продвигает...

13Май

Пример потокового конвейера из Kafka в Elasticsearch на платформе Decodable

Автор Анна Вичуговав категории Kafka, NoSql

Kafka курсы примеры обучение, NoSQL обучение примеры курсы, инженерия данных с Elasticsearch и Kafka, использование Kafka Elasticsearch pipeline, интеграция Kafka пример, Школа Больших Данных Учебный Центр Коммерсант

Практическая демонстрация потокового SQL-конвейера, который преобразует данные, потребленные из Apache Kafka, и записывает результаты в Elasticsearch, используя Debezium-коннекторы и задания Apache Flink в облачной платформе Decodable. Потребление сообщений из Apache Kafka Я уже показывала пример интеграции Apache Kafka и Elasticsearch с помощью sink-коннектора, а также конвейер с ClickHouse Cloud. Сегодня...

12Май

Обработка XML-документов в Greenplum

Автор Анна Вичуговав категории Greenplum

Greenplum для разработчика и дата-инженера примеры курсы обучение, XSLT XML Greenplum PostgreSQL примеры, разработчик Greenplum, использование Greenplum, Школа Больших Данных Учебный Центр Коммерсант

Как Greenplum хранит и обрабатывает XML-документы, зачем для этого нужны утилиты gpfdist и gpload, каковы их конфигурации для выполнения XSLT-преобразований XML-файлов и их загрузки/выборки во внешние таблицы MPP-СУБД. Работа с XML-документами и XSLT-преобразования в Greenplum Greenplum, как и PostgreSQL, также поддерживает работу со сложными типами данных и может вести себя...

11Май

Интеграция ClickHouse с Apache AirFlow

Автор Анна Вичуговав категории AirFlow, ClickHouse

Чем полезна интеграция ClickHouse с Apache Airflow и как ее реализовать: операторы в пакете провайдера и плагине на основе Python-драйвера. Принципы работы и примеры использования. 2 способа интеграции ClickHouse с AirFlow Продолжая разговор про интеграцию ClickHouse с другими системами, сегодня рассмотрим, как связать эту колоночную СУБД с мощным ETL-движком Apache...

10Май

Задержка интеграции ClickHouse с Apache Kafka и как ее снизить

Автор Анна Вичуговав категории ClickHouse, Kafka

Kafka курсы примеры обучение, ClickHouse обучение примеры курсы, аналитика данных с ClickHouse и Kafka, использование ClickHouse, интеграция ClickHouse, Kafka ClickHouse интеграция пример, Школа Больших Данных Учебный Центр Коммерсант

От чего зависит задержка передачи данных из Apache Kafka в ClickHouse, как ее определить и ускорить интеграцию брокера сообщений с колоночной СУБД: настройки и лучшие практики. Интеграция ClickHouse с Kafka Чтобы связать ClickHouse с внешними системами, в этой колоночной СУБД есть специальные механизмы – интеграционные движки таблиц. Например, для взаимодействия...

09Май

Чек-лист перед запуском приложения Apache Flink в производство

Автор Анна Вичуговав категории Flink

Apache Flink развертывание, Apache Flink примеры курсы обучение, разработка Flink -приложений, Flink для инженеров данных и разработчиков, Школа Больших Данных Учебный Центр Коммерсант

Зачем устанавливать максимальный для каждого задания Apache Flink, для чего stateful-оператору пользовательский UUID, как выбрать подходящий бэкенд хранения состояний, от чего зависит оптимальный интервал создания контрольных точек и где настраивается высокая доступность менеджера заданий. 5 главных настроек перед запуском Flink-приложения в производственное развертывание Перед запуском приложения Apache Flink в производственное...

08Май

Источники данных Apache Spark

Автор Анна Вичуговав категории Spark

обучение Spark, Spark Structured Streaming SQL, потоковая обработка данных Spark Structured Streaming, курсы Spark для разработчиков, Школа Больших Данных Учебный Центр Коммерсант

Какие источники исходных данных поддерживает Apache Spark для пакетной и потоковой обработки, обеспечивая отказоустойчивые вычисления в большом масштабе средствами SQL и Structured Streaming. Источники данных Apache Spark SQL и структурированной потоковой передачи Будучи фреймворком для создания распределенных приложений обработки больших объемов данных, Apache Spark может подключаться к разным источникам этих...