Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

03Июн
2024

5 типовых ошибок в Apache AirFlow и как их исправить: советы дата-инженеру

администрирование и использование Apache AirFlow, курсы Apache AirFlow для дата-инженера, Apache AirFlow, инженерия данных примеры курсы обучение, ETL с Apache AirFlow, Школа Больших Данных Учебный Центр Коммерсант

Почему планировщик Apache AirFlow чувствителен к всплескам рабочих нагрузок, из-за чего тормозит база данных метаданных, как исправить проблемы с файлом DAG, лог-файлами и внешними ресурсами: разбираемся с ошибками пакетного оркестратора и способами их решения. Проблемы с планировщиком Хотя Apache AirFlow позиционируется как довольно простой фреймворк для оркестрации пакетных процессов с...

06Май
2024

Управление ресурсами и планирование рабочей нагрузки в ClickHouse

Автор Анна Вичуговав категории ClickHouse

ClickHouse обучение примеры курсы, аналитика данных с ClickHouse, использование ClickHouse, интеграция ClickHouse, Школа Больших Данных Учебный Центр Коммерсант

Как эффективно распределять и использовать ресурсы ClickHouse, зачем ограничивать возможности пользователей с помощью квот и классифицировать рабочие нагрузки. Управление ресурсами в ClickHouse Благодаря своей децентрализованной архитектуре ClickHouse, когда один экземпляр включает несколько серверов, к которым напрямую приходят запросы пользователей, эта колоночная СУБД работает очень быстро. Для репликации данных и выполнения...

25Мар
2024

Разделять ли топик Apache Kafka: 5 главных соображений

Автор Анна Вичуговав категории Kafka

разделы и топики Kafka, Kafka проектирование потокового конвейера, архитектура данных с Kafka, Kafka примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Почему раздел называется единицей параллелизма и как определить оптимальное число разделов в топике Apache Kafka в зависимости от количества потребителей и вариативности их поведения, разницы пропускной способности публикации и потребления сообщений, семантики партиционирования, толерантности к упорядоченности событий и ресурсных возможностей узла кластера. Что учитывать при разделении топика Apache Kafka Хотя...

17Мар
2024

Плавное завершение работы брокера Apache Kafka и перевыборы лидера

Автор Анна Вичуговав категории Kafka

администрирование кластера Kafka, Kafka graceful shutdown, администратор кластера Kafka, Школа больших Данных Учебный центр Коммерсант

Что такое graceful shutdown в Apache Kafka, когда используется такое плавное завершение работы, при чем здесь синхронизация реплик и как это влияет на плановые операции обслуживания кластера. Как работает механизм Graceful shutdown в Apache Kafka Благодаря множеству внутренних механизмов обеспечения отказоустойчивости, Apache Kafka имеет высокую надежность и позволяет строить нагруженные...

11Мар
2024

Администрирование Greenplum с помощью утилиты gpsupport

Автор Анна Вичуговав категории Greenplum

Greenplum администрирование примеры курсы обучение, администратор Greenplum, системные утилиты техподдержка Greenplum, Школа Больших Данных Учебный Центр Коммерсант

Как найти зависший процесс в базе данных Greenplum, создать резервную копию каталога, разделить лог-файл по тестам и проверить его на наличие повреждений. Знакомимся с набором утилит gpsupport. 6 инструментов утилиты gpsupport для техподдержки Greenplum Как и любая крупная система Greenplum, помимо компонентов, обеспечивающих ее ключевые функции, также включает дополнительные инструменты,...

07Мар
2024

Как создать и запустить docker-контейнер Apache AirFlow на Windows

Автор Анна Вичуговав категории AirFlow

Apache AirFlow WSL, docker-контейнер AirFlow, обучение AirFlow, курсы AirFlow, курсы дата-инженеров, обучение инженеров данных devOps docker, Школа Больших Данных Учебный Центр Коммерсант

Что такое WSL, Docker и как запустить веб-сервер Apache AirFlow в контейнере на локальной машине в Ubuntu поверх Windows вместо любимого Google Colab. Пошаговое руководство для начинающих дата-инженеров. Краткий ликбез по WSL и Docker для любителей Windows Обычно я всегда запускала веб-сервер Apache AirFlow в интерактивной среде Google Colab, которая...

29Фев
2024

Как сменить SQLLite на PostgreSQL для бэкенда Apache AirFlow

Автор Анна Вичуговав категории AirFlow

администрирование Apache AirFlow, бэкенд Apache AirFlow, база данных метаданных Apache AirFlow, управление Apache AirFlow, обучение Apache AirFlow, курсы по AirFlow, обучение дата-инженеров, инженерия данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Зачем менять базу данных метаданных в производственном развертывании Apache AirFlow и как это сделать: пошаговое руководство для дата-инженера с примерами и рекомендациями. 5 шагов перехода от SQLLite к PostgreSQL: миграция базы данных метаданных Apache AirFlow Чтобы планировать и запускать конвейеры обработки данных, Apache AirFlow хранит сведения о задачах, DAG, исполнителях,...

27Фев
2024

Журналирование событий в Apache Spark и сжатие лог-файлов

Автор Анна Вичуговав категории Spark

Когда журналирование событий может привести к OOM-ошибке, где отслеживать системные метрики приложения Apache Spark, зачем сжимать лог-файлы и как это сделать. Логирование системных метрик в приложении Apache Spark Поскольку фреймворк Apache Spark изначально предназначен для создания высоконагруженных распределенных приложений пакетной и потоковой обработки больших объемов данных, он позволяет отслеживать системные...

16Фев
2024

Аутентификация и авторизация пользователей в Apache AirFlow

Автор Анна Вичуговав категории AirFlow

администрирование Apache AirFlow, безопасность Apache AirFlow, аутентификация и авторизация пользователей Apache AirFlow, управление пользователями Apache AirFlow, обучение Apache AirFlow, курсы по AirFlow, обучение дата-инженеров, инженерия данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Зачем ограничивать доступ к папке с DAG и как это сделать: категории и роли пользователей в Apache AirFlow, способы входа в систему и конфигурации для настройки прав. Категории и роли пользователей Apache AirFlow Поскольку основным источником угрозы почти для любой информационной системы являются люди, при разработке методов обеспечения безопасности надо,...

03Фев
2024

4 стратегии мультирегионального развертывания Apache Kafka

Автор Анна Вичуговав категории Kafka

репликация кластера Apache Kafka Confluent, мультирегональная геораспределенная репликация Kafka, курсы по Kafka примеры обучение, Школа Больших Данных

Завершая цикл статей про мультирегиональную репликацию кластеров Apache Kafka, сегодня поговорим про стратегии развертывания топологий, предлагаемых компанией Confluent. Принципы архитектуры, сравнение, сценарии, критерии выбора. Критерии выбора топологии репликации кластера Apache Kafka Для повышения надежности и производительность потоковой обработки данных с использованием Apache Kafka кластера этой платформы рекомендуется располагать в разных...