Курсы Big Data, Hadoop, Arenadata, Kafka и Spark

17Май

Внешние ресурсы и пользовательская обработка отказов в Apache Flink

Flink плагины, Flink разработка, Apache Flink дата-инженерия, Apache Flink примеры курсы обучение, разработка Flink -приложений, Flink для инженеров данных и разработчиков, Школа Больших Данных Учебный Центр Коммерсант

Как расширить возможности Apache Flink с помощью дополнительных плагинов: подключение внешних ресурсов и обогащение отказов пользовательскими метками. Разбираемся с продвинутыми настройками для эффективной эксплуатации фреймворка. Внешние ресурсы Apache Flink Помимо процессора и памяти, многим рабочим нагрузкам также требуются другие ресурсы, например, графические процессоры для глубокого обучения. Для поддержки внешних ресурсов...

15Май

Управление ресурсами и планирование рабочей нагрузки в ClickHouse

Автор Анна Вичуговав категории ClickHouse

ClickHouse обучение примеры курсы, аналитика данных с ClickHouse, использование ClickHouse, интеграция ClickHouse, Школа Больших Данных Учебный Центр Коммерсант

Как эффективно распределять и использовать ресурсы ClickHouse, зачем ограничивать возможности пользователей с помощью квот и классифицировать рабочие нагрузки. Управление ресурсами в ClickHouse Благодаря своей децентрализованной архитектуре ClickHouse, когда один экземпляр включает несколько серверов, к которым напрямую приходят запросы пользователей, эта колоночная СУБД работает очень быстро. Для репликации данных и выполнения...

11Май

Интеграция ClickHouse с Apache AirFlow

Автор Анна Вичуговав категории AirFlow, ClickHouse

Чем полезна интеграция ClickHouse с Apache Airflow и как ее реализовать: операторы в пакете провайдера и плагине на основе Python-драйвера. Принципы работы и примеры использования. 2 способа интеграции ClickHouse с AirFlow Продолжая разговор про интеграцию ClickHouse с другими системами, сегодня рассмотрим, как связать эту колоночную СУБД с мощным ETL-движком Apache...

08Апр

Новинки Apache Kafka 3.7: обзор свежего релиза

Автор Анна Вичуговав категории Kafka

Apache Kafka 3.7 обновление, Apache Kafka примеры курсы обучение, администрирование кластера Kafka, Kafka для инженеров данных администраторов и разработчиков, Школа Больших Данных Учебный Центр Коммерсант

В конце февраля вышел очередной релиз Apache Kafka за номером 3.7. Поддержка JBOD в KRaft-кластерах, новый протокол перебалансировки потребителей, мониторинг метрик клиента на брокере, новинки Streams и Connect, и другие изменения самой популярной платформы потоковой передачи событий для дата-инженера и администратора. Изменения в брокерах, продюсера, контроллерах и Admin Client 27...

25Мар

Разделять ли топик Apache Kafka: 5 главных соображений

Автор Анна Вичуговав категории Kafka

разделы и топики Kafka, Kafka проектирование потокового конвейера, архитектура данных с Kafka, Kafka примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Почему раздел называется единицей параллелизма и как определить оптимальное число разделов в топике Apache Kafka в зависимости от количества потребителей и вариативности их поведения, разницы пропускной способности публикации и потребления сообщений, семантики партиционирования, толерантности к упорядоченности событий и ресурсных возможностей узла кластера. Что учитывать при разделении топика Apache Kafka Хотя...

17Мар

Плавное завершение работы брокера Apache Kafka и перевыборы лидера

Автор Анна Вичуговав категории Kafka

администрирование кластера Kafka, Kafka graceful shutdown, администратор кластера Kafka, Школа больших Данных Учебный центр Коммерсант

Что такое graceful shutdown в Apache Kafka, когда используется такое плавное завершение работы, при чем здесь синхронизация реплик и как это влияет на плановые операции обслуживания кластера. Как работает механизм Graceful shutdown в Apache Kafka Благодаря множеству внутренних механизмов обеспечения отказоустойчивости, Apache Kafka имеет высокую надежность и позволяет строить нагруженные...

11Мар

Администрирование Greenplum с помощью утилиты gpsupport

Автор Анна Вичуговав категории Greenplum

Greenplum администрирование примеры курсы обучение, администратор Greenplum, системные утилиты техподдержка Greenplum, Школа Больших Данных Учебный Центр Коммерсант

Как найти зависший процесс в базе данных Greenplum, создать резервную копию каталога, разделить лог-файл по тестам и проверить его на наличие повреждений. Знакомимся с набором утилит gpsupport. 6 инструментов утилиты gpsupport для техподдержки Greenplum Как и любая крупная система Greenplum, помимо компонентов, обеспечивающих ее ключевые функции, также включает дополнительные инструменты,...

07Мар

Как создать и запустить docker-контейнер Apache AirFlow на Windows

Автор Анна Вичуговав категории AirFlow

Apache AirFlow WSL, docker-контейнер AirFlow, обучение AirFlow, курсы AirFlow, курсы дата-инженеров, обучение инженеров данных devOps docker, Школа Больших Данных Учебный Центр Коммерсант

Что такое WSL, Docker и как запустить веб-сервер Apache AirFlow в контейнере на локальной машине в Ubuntu поверх Windows вместо любимого Google Colab. Пошаговое руководство для начинающих дата-инженеров. Краткий ликбез по WSL и Docker для любителей Windows Обычно я всегда запускала веб-сервер Apache AirFlow в интерактивной среде Google Colab, которая...

29Фев

Как сменить SQLLite на PostgreSQL для бэкенда Apache AirFlow

Автор Анна Вичуговав категории AirFlow

администрирование Apache AirFlow, бэкенд Apache AirFlow, база данных метаданных Apache AirFlow, управление Apache AirFlow, обучение Apache AirFlow, курсы по AirFlow, обучение дата-инженеров, инженерия данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Зачем менять базу данных метаданных в производственном развертывании Apache AirFlow и как это сделать: пошаговое руководство для дата-инженера с примерами и рекомендациями. 5 шагов перехода от SQLLite к PostgreSQL: миграция базы данных метаданных Apache AirFlow Чтобы планировать и запускать конвейеры обработки данных, Apache AirFlow хранит сведения о задачах, DAG, исполнителях,...

27Фев

Журналирование событий в Apache Spark и сжатие лог-файлов

Автор Анна Вичуговав категории Spark

Когда журналирование событий может привести к OOM-ошибке, где отслеживать системные метрики приложения Apache Spark, зачем сжимать лог-файлы и как это сделать. Логирование системных метрик в приложении Apache Spark Поскольку фреймворк Apache Spark изначально предназначен для создания высоконагруженных распределенных приложений пакетной и потоковой обработки больших объемов данных, он позволяет отслеживать системные...