Курсы Big Data, Arenadata, Greenplum, Kafka и Spark

05Июн
2024

Планы выполнения запросов при работе с API pandas в Apache Spark

обучение Spark, PySpark Spark Pandas, pandas-on-spark примеры курсы обучение, курсы Spark для разработчиков, Школа Больших Данных Учебный Центр Коммерсант

Для чего смотреть планы выполнения запросов при работе с API pandas в Spark и как это сделать: примеры использования метода spark.explain() и его аргументов для вывода логических и физических планов. Разбираем на примере PySpark-скрипта. API pandas и физический план выполнения запроса в Apache Spark Мы уже писали, что PySpark, API-интерфейс...

31Май
2024

Индексы в ClickHouse

Автор Анна Вичуговав категории ClickHouse

ClickHouse обучение примеры курсы, аналитика данных с ClickHouse, использование ClickHouse, интеграция ClickHouse, Школа Больших Данных Учебный Центр Коммерсант

Как ClickHouse реализует разреженные индексы, что такое гранула, чем отличается широкий формат хранения данных от компактного, и почему значения первичного ключа в диапазоне параметров запроса должны быть монотонной последовательностью. Тонкости индексации в ClickHouse Индексация считается одним из наиболее известных способов повышения производительности базы данных. Индекс определяет соответствие значения ключа записи...

29Май
2024

Модификатор FINAL в ClickHouse: как не выстрелить себе в ногу?

Автор Анна Вичуговав категории ClickHouse

тонкости ClickHouse, курсы ClickHouse для дата-инженера, инженерия данных примеры курсы обучение, ClickHouse примеры запросов, Школа Больших Данных Учебный Центр Коммерсант

Что такое модификатор FINAL в SELECT-запросе ClickHouse, с какими табличными движками он работает, почему снижает производительность и как этого избежать. Тонкости потокового выполнения SQL-запросов в колоночной СУБД. Зачем в SELECT-запросе ClickHouse нужен модификатор FINAL? Хотя SQL-запросы в ClickHouse имеют типовую структуру, их реализация зависит от используемого движка таблиц. Например, запрос...

25Май
2024

Оптимизация производительности ClickHouse: ребалансировка шардов и профилирование запросов

Автор Анна Вичуговав категории ClickHouse

Как равномерно распределить по шардам ClickHouse уже существующие данные, зачем профилировать запросы, какие профилировщики поддерживает эта колоночная СУБД и каким образом их использовать. Ребалансировка шардов в ClickHouse Какой бы быстрой не была база данных, ее работу всегда хочется ускорить еще больше. Одним из популярных способов ускорения распределенной СУБД является шардирование...

18Май
2024

Интеграция ClickHouse с Apache NiFi

Автор Анна Вичуговав категории ClickHouse, NiFi

Как прочитать данные из ClickHouse в Apache NiFi или загрузить их в таблицу колоночной СУБД: настройки подключения, использование процессоров и тонкости потоковой интеграции. Подключение к ClickHouse из Apache NiFi Как и интеграция ClickHouse с Apache AirFlow, связь этой колоночной СУБД с приложением NiFi реализуется с помощью решения сообщества, средствами самого...

17Май
2024

Внешние ресурсы и пользовательская обработка отказов в Apache Flink

Автор Анна Вичуговав категории Flink

Flink плагины, Flink разработка, Apache Flink дата-инженерия, Apache Flink примеры курсы обучение, разработка Flink -приложений, Flink для инженеров данных и разработчиков, Школа Больших Данных Учебный Центр Коммерсант

Как расширить возможности Apache Flink с помощью дополнительных плагинов: подключение внешних ресурсов и обогащение отказов пользовательскими метками. Разбираемся с продвинутыми настройками для эффективной эксплуатации фреймворка. Внешние ресурсы Apache Flink Помимо процессора и памяти, многим рабочим нагрузкам также требуются другие ресурсы, например, графические процессоры для глубокого обучения. Для поддержки внешних ресурсов...

15Май
2024

Управление ресурсами и планирование рабочей нагрузки в ClickHouse

Автор Анна Вичуговав категории ClickHouse

Как эффективно распределять и использовать ресурсы ClickHouse, зачем ограничивать возможности пользователей с помощью квот и классифицировать рабочие нагрузки. Управление ресурсами в ClickHouse Благодаря своей децентрализованной архитектуре ClickHouse, когда один экземпляр включает несколько серверов, к которым напрямую приходят запросы пользователей, эта колоночная СУБД работает очень быстро. Для репликации данных и выполнения...

14Май
2024

Изоляция приложений Apache Spark в одной среде Databricks с Lakeguard

Автор Анна Вичуговав категории Spark

Spark Lakeguard Databricks, архитектура и безопасность платформы данных, архитектура и безопасность Spark, Spark примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Проблемы управления данными в мультиарендной среде или как Databricks решил изолировать клиентские приложения Apache Spark на общей виртуальной машине Java друг от друга и от самого фреймворка (драйвера и исполнителей). Знакомство с Lakeguard на базе каталога Unity. Проблемы управления данными в мультитенантной среде Компания Databricks не просто развивает и продвигает...

11Май
2024

Интеграция ClickHouse с Apache AirFlow

Автор Анна Вичуговав категории AirFlow, ClickHouse

Чем полезна интеграция ClickHouse с Apache Airflow и как ее реализовать: операторы в пакете провайдера и плагине на основе Python-драйвера. Принципы работы и примеры использования. 2 способа интеграции ClickHouse с AirFlow Продолжая разговор про интеграцию ClickHouse с другими системами, сегодня рассмотрим, как связать эту колоночную СУБД с мощным ETL-движком Apache...

10Май
2024

Задержка интеграции ClickHouse с Apache Kafka и как ее снизить

Автор Анна Вичуговав категории ClickHouse, Kafka

Kafka курсы примеры обучение, ClickHouse обучение примеры курсы, аналитика данных с ClickHouse и Kafka, использование ClickHouse, интеграция ClickHouse, Kafka ClickHouse интеграция пример, Школа Больших Данных Учебный Центр Коммерсант

От чего зависит задержка передачи данных из Apache Kafka в ClickHouse, как ее определить и ускорить интеграцию брокера сообщений с колоночной СУБД: настройки и лучшие практики. Интеграция ClickHouse с Kafka Чтобы связать ClickHouse с внешними системами, в этой колоночной СУБД есть специальные механизмы – интеграционные движки таблиц. Например, для взаимодействия...