Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

08Июн
2021

Исправляем OOM-ошибки приложений Apache Kafka Streams через конфигурирование RocksDB

Автор Анна Вичуговав категории Kafka, Блог

курсы Apache Kafka Streams, RocksDB, обучение разработчиков курсы Apache Kafka Streams, курсы по Kafka, обучение Kafka, разработка потоковых приложений Kafka, обучение разработчиков Big Data, Школа Больших ДАнных Учебный центр Коммерсант

Сегодня заглянем под капот stateful-приложений Kafka Streams и рассмотрим, что такое RocksDB, как устроено это key-value NoSQL-хранилище и почему его необходимо настраивать для быстрой и безотказной работы приложений потоковой аналитики больших данных. Читайте далее, какие проблемы приложений Kafka Streams связаны с RocksDB и как ограничить повышенное потребление оперативной памяти. Что...

03Июн
2021

Real-time аналитика больших данных о сетевом трафике с Apache Kafka и Spark

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

курсы Spark, курсы Kafka, обучение Spark, обучение Kafka, конвейер аналитики больших данных, анализ сетевого трафика в реальном времени, NetFlow аналитика, Школа Больших Данных Учебный Центр Коммерсант

Продолжая добавлять в наши практические курсы по Apache Kafka и Spark еще больше интересных примеров, сегодня рассмотрим, как с помощью этих технологий Big Data анализировать метаданные сетевых потоков в реальном времени. В этой статье мы приготовили для вас кейс по потоковой аналитики больших данных о сетевом трафике с помощью Apache...

27Май
2021

Аналитика больших данных с JSON и AVRO в Apache Kafka: кейс компании Mobimeo

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

разработчик Kafka курс, обучение Apache Kafka, Apache Kafka для разработчиков инженеров данных и администраторов курсы, администратор кластера Apache Kafka, администрирование кластера Apache Kafka обучение, курсы по большим данным, Big Data, Apache Kafka обучение для разработчика курсы, Kafka vs ActiveMQ, Школа Больших Данных Учебный центр Коммерсант

Чтобы добавить в наши практические курсы по Apache Kafka еще больше интересных примеров, сегодня рассмотрим кейс немецкой ИТ-компании Mobimeo, которая несколько раз перекраивала свою систему аналитики больших данных, чтобы быстро узнавать о событиях клиентских приложений. Читайте далее, зачем дата-инженеры Mobimeo предпочли AVRO формату JSON, почему вместо брокера сообщений ActiveMQ решили...

21Май
2021

Под капотом Apache Kafka: zero copy и быстрые IO-операции с диском

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, Apache Kafka для разработчиков и администраторов курсы, администратор кластера Apache Kafka, администрирование кластера Apache Kafka обучение, курсы по большим данным, Big Data, Большие данные, Kafka, обработка данных, Apache Kafka обучение для разработчика курсы, Kafka data transfer, Школа Больших Данных Учебный центр Коммерсант

Один из факторов повышенной надежности Apache Kafka обеспечивается записью сообщений на жесткий диск. Однако, операции ввода-вывода (IO, input-output) с дисковым пространством считаются медленными и часто являются узким местом во всей системе. Спустившись на уровень операционной системы и ядра, сегодня рассмотрим, как Kafka справляется с этим ограничением, позволяя быстро обрабатывать огромные...

10Май
2021

Хранение, чтение и очистка сообщение в топиках Apache Kafka: 3 важных конфигурации

Автор Анна Вичуговав категории Kafka, Блог

В этой статье разберем одну из тем практического обучения администраторов Apache Kafka и рассмотрим разницу между сохранением сообщений и фиксированных смещений в этой Big Data платформе потоковой обработке событий. Читайте далее про конфигурации потребителя и брокера, отвечающие за время хранения сообщений и политику очистки журналов. Еще раз про offset или...

06Май
2021

Масштабируемая видеоаналитика в реальном времени с нейросетями YOLO на Apache Kafka, Spark Structured Streaming и Cassandra

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

аналитика больших данных в реальном времени примеры , курсы Big Data Spark Kafka NoSQL обучение, машинное обучение кейсы, YOLO Big Data, Школа Больших ДАнных Учебный центр Коммерсант

В рамках обучения аналитиков Big Data и разработчиков Apache Spark и Kafka, сегодня рассмотрим кейс ИТ-компании Southworks по онлайн-обработке потокового видео как наглядный пример эффективного сочетания этих потоковых фреймворков с пакетными задачами. Читайте далее, как реализовать лямбда-архитектуру масштабируемой Big Data системы на базе Apache Kafka, Spark Structured Streaming и NoSQL-СУБД...

04Май
2021

7 новых фич Apache Kafka Streams в релизе 2.8.0

Автор Анна Вичуговав категории Kafka, Блог

Вчера мы говорили про важные обновления Apache Kafka 2.8.0, помимо долгожданного KIP-500, который позволяет избавиться от Zookeeper для синхронизации метаданных в распределенном кластере с помощью встроенного Quorum Controller. Сегодня рассмотрим, какие KIP’ы нового релиза коснулись одного из основных инструментов разработчика Apache Kafka – библиотеки Streams для создания распределенных приложений потоковой...

03Май
2021

Не только KIP-500: 15 важных улучшений Apache Kafka 2.8.0

Автор Анна Вичуговав категории Kafka, Блог

KIP-500, который позволяет наконец-то избавиться от Zookeeper в кластере Apache Kafka, заменив его Quorum Controller – далеко не единственное важное обновление в релизе 2.8.0. Сегодня рассмотрим, какие еще улучшения реализованы в новой версии главной Big Data платформы потоковой обработки событий, выпущенной в апреле 2021 года. Apache Kafka 2.8.0: новинки главных...

02Май
2021

Проблема межкластерных транзакций в Apache Kafka и способы ее решения

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka MirrorMaker, межкластерные транзакции Apache Kafka, Apache Kafka Для разработчиков курсы, курсы по большим данным, Big Data, Большие данные, Kafka, обработка данных, строго однократная семантика доставки сообщений Kafka пример, Школа Больших Данных Учебный центр Коммерсант

Продолжая говорить про обучение разработчиков и администраторов Apache Kafka, сегодня разберем сложности семантики строго однократной доставки сообщений (exactly once) в случае нескольких экземплярах, находящихся в разных кластерах. Читайте далее, что не так с межкластерными транзакциями, какие KIP’ы связаны с этой проблемой и при чем здесь MirrorMaker. Что не так с...

27Апр
2021

Оптимизация хранения сообщений в топиках Apache Kafka: зачем и как упаковывать, сжимать и менять форматы

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, Apache Kafka Для разработчиков курсы, курсы по большим данным, Big Data, Большие данные, Kafka, обработка данных, оптимизация сохранения сообщений Kafka пример, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим важную тему из курсов для разработчиков и администраторов Apache Kafka: как сэкономить место на диске и увеличить пропускную способность всей Big Data системы на базе этой платформы потоковой обработки событий. Читайте далее, зачем добавлять задержку перед отправкой сообщений брокеру, как кодеки сжатия помогут снизить затраты на облачный Kafka-кластер...