Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

02Май
2021

Проблема межкластерных транзакций в Apache Kafka и способы ее решения

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka MirrorMaker, межкластерные транзакции Apache Kafka, Apache Kafka Для разработчиков курсы, курсы по большим данным, Big Data, Большие данные, Kafka, обработка данных, строго однократная семантика доставки сообщений Kafka пример, Школа Больших Данных Учебный центр Коммерсант

Продолжая говорить про обучение разработчиков и администраторов Apache Kafka, сегодня разберем сложности семантики строго однократной доставки сообщений (exactly once) в случае нескольких экземплярах, находящихся в разных кластерах. Читайте далее, что не так с межкластерными транзакциями, какие KIP’ы связаны с этой проблемой и при чем здесь MirrorMaker. Что не так с...

27Апр
2021

Оптимизация хранения сообщений в топиках Apache Kafka: зачем и как упаковывать, сжимать и менять форматы

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, Apache Kafka Для разработчиков курсы, курсы по большим данным, Big Data, Большие данные, Kafka, обработка данных, оптимизация сохранения сообщений Kafka пример, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим важную тему из курсов для разработчиков и администраторов Apache Kafka: как сэкономить место на диске и увеличить пропускную способность всей Big Data системы на базе этой платформы потоковой обработки событий. Читайте далее, зачем добавлять задержку перед отправкой сообщений брокеру, как кодеки сжатия помогут снизить затраты на облачный Kafka-кластер...

16Апр
2021

Как повысить отказоустойчивость продюсера Kafka: 5 практик по настройке ТОП-10 конфигураций

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, конфигурации продюсеров Kafka, Apache Kafka для разработчиков администраторов и дата-инженеров, Kafka обучение разработчиков

В этой статье поговорим про практическое обучение Apache Kafka и рассмотрим, как сделать продюсеров еще более отказоустойчивыми, чтобы улучшить общую надежность всей Big Data системы. Читайте далее про наиболее важные конфигурации продюсеров Kafka и эффективные рекомендации по их настройке. 10 самых важных параметров продюсера Apache Kafka Из множества конфигурационных параметров...

14Апр
2021

ОЗУ, Kafka и Logstash для решения IOPS-проблемы в кластере Apache NiFi

Автор Анна Вичуговав категории Kafka, NiFi, Блог

курсы NiFi, обучение Apache NiFi, курсы Kafka, обучение Apache Kafka, курсы инженеров Big Data, курсы дата-инженеров, Kafka + NiFi

В рамках обучения дата-инженеров, сегодня рассмотрим проблему роста числа операций ввода-вывода в секунду (IOPS) при обработке большого количества данных в потоках Apache NiFi и способы ее решения. Читайте далее, как перемещение репозиториев NiFi с жесткого диска в оперативную память снижает IOPS, а также зачем при этом в Big Data систему...

13Апр
2021

Cloudera Manager и еще 7 инструментов администратора для мониторинга Kafka-кластера

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, мониторинг за кластером Kafka, Apache Kafka для администраторов и дата-инженеров

Обновляя наши курсы для администраторов Apache Kafka, в этой статье разберем полезные средства, которые помогут вам следить за состоянием кластера, чтобы вовремя заметить существующие и предупредить возможные проблемы. Читайте далее, как отследить снижение производительности всей Big Data системы и сбои на отдельных брокерах с помощью дэшбордов в различных инструментах администрирования....

02Апр
2021

7 важных функций, которых еще нет в новой Apache Kafka без Zookeeper

Автор Анна Вичуговав категории Kafka, Блог

курсы по Kafka, обучение Apache Kafka, Quorum Controller в новой Apache Kafka без Zookeeper

Вчера мы упоминали, как долгожданный KIP-500, реализованный в марте 2021 года, позволяет не только отказаться от Zookeeper в кластере Apache Kafka, но и снимает ограничение числа разделов, чтобы масштабировать брокеры практически до бесконечности. Однако, не все так просто: читайте далее, какие важные функции еще не поддерживаются в этом экспериментальном режиме...

01Апр
2021

Сколько разделов вам нужно и при чем здесь KIP-500: разбираемся с партиционированием в Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

курсы по Kafka, обучение Apache Kafka, partitioning Apache Kafka, топики и разделы Кафка

Сегодня рассмотрим важную практическую задачу из курсов Kafka для разработчиков и администраторов кластера – разделение топиков по брокерам. Читайте далее, как пропускная способность всей Big Data системы зависит от числа разделов, коэффициента репликации и ответного ack-параметра, а также при чем здесь KIP-500, позволяющий отказаться от Zookeeper. Что такое партиционирование в...

25Мар
2021

Возвращение к истокам: когда версия сообщества предпочтительнее коммерческого продукта – кейс миграции Apache Hadoop

Автор Анна Вичуговав категории Use Cases, Блог

курсы Hadoop, обучение Hadoop, Hadoop для инженеров данных, администрирование кластера Hadoop, обучение основам Hadoop, Apache Hadoop основы, дистрибутивы Hadoop, сравнение дистрибутивов Hadoop

Сегодня рассмотрим особенности ухода с коммерческого дистрибутива Hadoop к версии сообщества на примере американской рекламной платформы Outbrain. Читайте далее, зачем дата-инженеры компании приняли такое решение, почему им не подошли альтернативы от MapR, Cloudera и Google Cloud Platform (DataProc), как проходила миграция на Apache Hadoop и что получилось в итоге. Предыстория:...

15Мар
2021

Зачем вам Arenadata Platform Security: ТОП-5 преимуществ корпоративного Apache Ranger для безопасности Hadoop-кластера от отечественного разработчика Big Data решений

Автор Анна Вичуговав категории Блог, Статьи

курсы Hadoop, обучение администраторов Big Data, Hadoop кластер администратор курсы обучение, курсы хадуп администратор, администрирование Hadoop, безопасность Hadoop, Apache Ranger Hadoop course, Arenadata Hadoop кластер администратор, Arenadata авторизованные курсы, обучение Big Data, Школа Больших Данных Учебный центр Коммерсант

В январе 2021 года российский разработчик решений для хранения и аналитики больших данных, компания Arenadata, представила новый продукт в линейке сервисов отечественного дистрибутива Apache Hadoop. Модуль Arenadata Platform Security обеспечивает централизованное управление групповыми политиками безопасности кластера. Разбираемся, что представляет собой эта система, как она связана с Apache Ranger и чем...

02Мар
2021

3 проблемы с топиками Kafka для администратора кластера и способы их решения

Автор Анна Вичуговав категории Use Cases, Блог

курсы по Kafka, Kafka кластер администратор обучение, обучение администраторов Kafka, Big Data, Большие данные, архитектура, Kafka, администрирование

В этой статье рассмотрим типичные проблемы топиков Apache Kafka, с которыми сталкивается каждый администратор Big Data кластера. Читайте далее, почему топики чрезмерно разрастаются, как работает очистка логов, когда старые сообщения могут остаться в почищенных сегментах и какие параметры конфигураций помогут справиться со всем этим. Брокеры и разделы: как устроены топики...