Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

07Июн
2023

Танцы с зеркалами или как восстановить кластер Greenplum после сбоя

Автор Анна Вичуговав категории Greenplum, Блог

администрирование Greenplum, управление кластером Greenplum, восстановление сегментов Greenplum, курсы Greenplum, обучение Greenplum, Greenplum для инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, зеркалирование Greenplum, лучшие практики администратор Greenplam курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Мы уже писали про механизмы обеспечения высокой доступности в кластере Greenplum. Сегодня рассмотрим, какие инструменты и приемы помогут выявить сбои координатора и сегментов, а также как администратору кластера этой MPP-СУБД восстановить ее работоспособность. Что такое зеркалирование сегментов Greenplum Напомним, кластер Greenplum представляет собой несколько экземпляров популярной объектно-реляционной базы данных (БД)...

22Май
2023

4 ошибки с DAG в интерфейсе Apache AirFlow и способы их исправления

Автор Анна Вичуговав категории AirFlow, Блог

AirFlow отладка и мониторинг DAG, использование Apache AirFlow, лучшие практики инженерии данных Apache AirFlow, ошибки GUI DAG AirFlow, отладка и мониторинг конвейеров обработки данных Apache AirFlow, обучение AirFlow, курсы AirFlow администратор кластера дата-инженер, AirFlow операторы DAG примеры курсы обучение, обучение инженеров данных Big Data, курсы дата-инженеров, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, какие ошибки, связанные с DAG, отображаются в пользовательском интерфейсе Apache AirFlow и как дата-инженеру их исправить. А также рассмотрим еще несколько рекомендаций по повышению эффективности этого фреймворка. 4 ошибки с DAG в интерфейсе Apache AirFlow и как их исправить Сегодня все больше компаний, независимо от их домена и...

15Май
2023

5 типов оповещений Apache AirFlow и их мониторинг в Healthchecks.io

Автор Анна Вичуговав категории AirFlow, Блог

callback AirFlow мониторинг DAG, обратные вызовы Apache AirFlow, мониторинг Apache AirFlow Healthchecks.io, отладка и мониторинг конвейеров обработки данных Apache AirFlow, обучение AirFlow, курсы AirFlow администратор кластера дата-инженер, AirFlow операторы DAG примеры курсы обучение, обучение инженеров данных Big Data, курсы дата-инженеров, Школа Больших Данных Учебный центр Коммерсант

В этой статье для обучения дата-инженеров рассмотрим типы оповещений в Apache AirFlow и их отслеживание в сервисе мониторинга cron-заданий Healthchecks.io. Оповещения Apache AirFlow: какие они бывают и зачем их отслеживать Apache AirFlow позволяет создавать сложные конвейеры обработки данных, которые могут выполняться по расписанию, по событию или запускаться вручную. Для повышения...

06Май
2023

2 способа удалить сообщения из топика Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

как удалить сообщения из топика Kafka, Apache Kafka архитектура и принципы работы примеры курсы обучение, администрирование кластера Kafka примеры курсы обучение, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, Apache Kafka для дата-инженеров, Apache Kafka для администраторов и инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Почему в Apache Kafka нет функций очистки топика и как же все-таки удалить из него все сообщения, если очень нужно, используя конфигурации retention и другие приемы администрирования кластера. Политика очистки и конфигурации retention В отличие от брокеров сообщений, которые после отправки данных приложениям-потребителям, удаляют их из очереди, Apache Kafka хранит...

12Апр
2023

2 режима развертывания приложений Apache Spark

Автор Анна Вичуговав категории Spark, Блог

Apache Spark примеры курсы обучение, развертывание Spark-приложения локально, локальный и кластерный режимы развертывания Spark-приложения, развертывание Apache Spark, курсы по Spark для разработчиков и дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как разработчику выбрать подходящий режим развертывания для своего Spark-приложения, достоинства и недостатки клиентского и кластерного режимов, а также особенности запуска под управлением YARN. Архитектура и режимы развертывания Spark-приложения Будучи фреймворком для создания приложений быстрой обработки Big Data, Apache Spark имеет несколько режимов развертывания, которые зависят от варианта запуска Spark-приложения: на...

04Апр
2023

5 проблем с распределенными очередями сообщений и их решения в Apache Kafka с RabbitMQ

Автор Анна Вичуговав категории Kafka, Блог

Kafka vs RabbitMQ очередь сообщений примеры курсы обучение проблемы и решения, очереди в Kafka RabbitMQ примеры курсы обучение, курсы по Apache Kafka, Kafka для разработчиков и дата-инженеров, обучение Kafka, Apache Kafka vs RabbitMQ, обучение большим данным, курсы Big Data, Школа Больших Данных Учебный Центр Коммерсант

Какие проблемы характерны для распределенных очередей сообщений, почему они случаются и как с ними справиться. Разбираемся со сбоями, ошибками и перегрузками на примере Apache Kafka и RabbitMQ. Проблемы с распределенными очередями и главные причины их появления Хотя Apache Kafka — это целая экосистема со множеством компонентов для потоковой передачи событий,...

31Мар
2023

Лучшие практики работы с DLQ-очередями в Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

DLQ Kafka, очередь недоставленных сообщений в Kafka примеры курсы обучение, курсы по Apache Kafka, Kafka для разработчиков, обучение Kafka, Apache Kafka Dead Letter Queue, обучение большим данным, курсы Big Data, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про очереди недоставленных сообщений в Apache Kafka и RabbitMQ. Сегодня поговорим про стратегии обработки ошибок, связанные с DLQ-очередями в Kafka, а также рассмотрим, какие сообщения НЕ надо помещать в Dead Letter Queue. 4 стратегии работы с DLQ-топиками в Apache Kafka Напомним, в Apache Kafka в очереди недоставленных...

30Мар
2023

Распределенные снапсшоты в Greenplum для производительности и надежности

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum MVCC распределенные транзакции, архитектура данных Greenplum, резервное копирование Greenplum, ACID в распределенных транзакциях Greenplum , Greenplum Arenadata DB примеры курсы обучение, курсы по большим данным, курсы Big Data, обучение большим данным, обучение Big Data, курсы ИТ-архитекторов, Школа Больших Данных Учебный Центр Коммерсант

Как Greenplum расширяет MVCC-модель PostgreSQL для управления доступом к данным в многопользовательской среде, обеспечивая согласованность и изоляцию транзакций для нескольких сегментов в большом кластере. Преимущества моментальных снимков перед блокировками и их польза для резервного копирования. MVCC и транзакции в Greenplum с PostgreSQL Будучи основанной на PostgreSQL, о чем мы писали здесь,...

29Мар
2023

4 главных настройки процессора Apache NiFi в GUI: параметры конфигурации

Автор Анна Вичуговав категории NiFi, Блог

курсы Apache NiFi, обучение Apache NiFi, Apache NiFi для инженеров данных и администраторов, инженерия больших данных курсы обучение, курсы дата-инженеров и администраторов NiFi, Cloudera NiFi, Школа Больших Данных Учебный центр Коммерсант

Чтобы сделать наши курсы по Apache NiFi Для дата-инженеров еще более полезными, сегодня поговорим про настройку процессоров. Читайте далее, как распараллелить задачи и потоки, задержать FlowFile, задать обратное давление и настроить другие полезные конфигурации. Как настроить конфигурации процессора Apache NiFi Будучи мощным инструментом дата-инженерии, Apache NiFi содержит множество обработчиков –...

25Мар
2023

Оптимизация планирования заданий Spark с backfill-операциями

Автор Анна Вичуговав категории Spark, Блог

backfill Spark job инженерия данных, администрирование кластера Apache Spark курсы обучение, Apache Spark дата-инженер, курсы Apache Spark , управление заданиями Apache Spark, инженерия данных примеры курсы обучение Apache Spark, обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Что такое backfill-операции в конвейерах заданий Apache Spark, чем они отличаются от исторического заполнения датасетов, зачем их автоматизировать и как это сделать. Что такое backfilling для заданий Apache Spark Мы уже писали про понятие backfill на примере модификации DAG при добавлении новых заданий в конвейер Apache AirFlow. Эта функция полезна,...