Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

18Янв
2022

Снова про Apache Kafka на Kubernetes: Strimzi в помощь

Автор Анна Вичуговав категории Kafka, Блог

Strimzi Kafka Kubernetes, администррование кластера Apache Kafka Kubernetes, обучение Kafka, курсы Apache Kafka администратор кластера, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

При том, что развертывание и эксплуатация Apache Kafka на Kubernetes требуют от администратора кластера много сил и времени, эта идея имеет массу достоинств, о чем мы писали здесь. Поэтому появляются новые инструменты, которые облегчают эти процессы, например, KubeMQ или Strimzi, который мы рассмотрим в этой статье. Что такое Strimzi и при...

17Янв
2022

Потоковый веб-парсинг на Apache Flink + RabbitMQ: кейс от дата-инженеров FiscalNote

Автор Анна Вичуговав категории Flink, Блог

Apache Flink RabbitMQ инженерия данных, курсы Flink Hadoop обучение примерыб инженер данных Apache Flink, потоковая обработка данных с Apache Flink, обучение дата-инженеров, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров и разработчиков распределенных приложений разберем кейс американской ИТ-компании FiscalNote, которая использует Apache Flink в качестве движка потоковой обработки информации со сторонних веб-сайтов. Трудности сериализации сообщений из очередей RabbitMQ с разной скоростью поступления Big Data и способы их обхода. Постановка задачи: требования для Flink-приложения FiscalNote специализируется...

11Янв
2022

ksqlDB 0.22.0: ноябрьское обновление компонента Apache Kafka от Confluence

Автор Анна Вичуговав категории Kafka, Блог

Kafka Streams курсы обучение, KSQL Kafka, ksqlDB курсы примеры обучение, разработка Kafka-приложений, обучение Kafka, курсы Kafka, Apache Kafka для инженеров и разработчиков, обучение разработчиков Kafka Streams и дата-инженеров, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

3 ноября 2021 года компания Confluent, которая занимается продвижением и коммерциализацией Apache Kafka, выпустила новый релиз ksqlDB, который включает 20 исправленных ошибок и 18 добавленных фич. Самое интересное в выпуске 0.22.0: улучшенные push- и pull-запросы, а также source-потоки и таблицы. 20 исправленных багов и 18 новых фич в ksqlDB 0.22.0...

08Янв
2022

Greenplum под защитой: настраиваем Kerberos

Автор Анна Вичуговав категории Greenplum, Блог

Greenplum Arenadata DB Kerberos обучение курсы примеры, Greenplum для администраторов и инженеров данных обучение курс примеры, настройка безопасности Kerberos Greenplum Arenadata, Школа Больших Данных Учебный центр Коммерсант

В этой статье для администраторов Greenplum рассмотрим, как настроить систему сетевой защиты Kerberos для этой MPP-СУБД, чтобы контролировать доступ к хранящимся в ней данным с помощью сервера аутентификации. А также рассмотрим основные понятия и термины Kerberos применительно к Greenplum. Что такое Kerberos и зачем это в Greenplum Напомним, Kerberos –...

07Янв
2022

Повышаем устойчивость приложений Apache Kafka через обработку исключений

Автор Анна Вичуговав категории Kafka, Блог

разработка Kafka-приложений, обучение Kafka, курсы Kafka, Apache Kafka для инженеров и разработчиков, администрирование кластера Kafka, конфигурации брокера топика продсера и потребителя Kafka настройки, обучение дата-инженеров, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня разберем практический вопрос из обучения администраторов кластера Apache Kafka и разработчиков распределенных приложений. Про исключения в Kafka-приложениях: какие они бывают, почему случаются, с какими параметрами конфигурации связаны и что могут сказать о тонкостях потоковой обработки больших данных. Исключения и транзакции в Apache Kafka В ИТ под исключением понимается исключительная...

04Янв
2022

Savepoint vs Checkpoint в Apache Flink: сходства и отличия

Автор Анна Вичуговав категории Flink, Блог

обучение Apache Flink курсы, Apache Flink для разработчиков, курсы Apache Hadoop для разработчиков примеры, Savepoint vs Checkpoint Apache Flink, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Разбираемся с механизмами отказоустойчивости Flink-приложений. Что такое контрольные точки (Checkpoint), чем они отличаются от точек сохранения (Savepoint) и что между ними общего. А также при чем здесь snapshot, что выбирать в разных случаях и как это использовать для отказоустойчивости stateful-приложений Apache Flink. Snapshot как механизм обеспечения отказоустойчивости приложений Apache Flink...

02Янв
2022

10 важных конфигураций Apache Kafka для практической работы

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, курсы Kafka, Apache Kafka для инженеров и разработчиков, администрирование кластера Kafka, конфигурации брокера топика продсера и потребителя Kafka настройки, обучение дата-инженеров, обучение большим данным, архитектура больших данных, ML Feature Store Apache Kafka, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы по Apache Kafka для администраторов кластеров и разработчиков распределенных приложений еще более полезными, сегодня рассмотрим несколько полезных и значимых конфигурационных параметров этой платформы потоковой передачи событий. Что настроить на брокере, топике, продюсере и потребителе, как распараллелить потоки и обрабатывать транзакции. Настройка брокеров и потоков в Apache...

29Дек
2021

Последний релиз 2021: новинки Apache NiFi 1.15.2

Автор Анна Вичуговав категории NiFi, Блог

NiFi Log4j обновление, пример Apache NiFi курсы обучение, NiFi для инженеров данных, NiFi Log4Shell примеры курсы обучение, обучение дата-инженеров, курсы инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Всего через 1,5 месяца после выпуска версии 1.15.0, 22 декабря 2021 года вышел очередной релиз Apache NiFi. Разбираем главные новинки и исправленные баги, а также смотрим, как команда разработчиков решила избавиться от уязвимости Log4Shell. Не только Log4j: еще 3 исправленных ошибки Декабрьский релиз Apache NiFi не может похвастаться внушительным списков...

25Дек
2021

Управление состояниями в Apache Flink: краткий ликбез

Автор Анна Вичуговав категории Flink, Блог

курсы Apache Flink примеры обучение, Kafka Flink примеры обучение курсы, обучение большим данных, курсы по flink, обучение Apache Hadoop Flink SQL, Flink Kafka, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, обучение Kafka, коннектор Kafka Flink, Школа Больших Данных Учебный центр Коммерсант

Что такое состояния в приложениях Apache Flink, каких видов они бывают, как ими управлять и зачем это нужно: основы разработки stateful-заданий и API DataStream. Чем состояние с ключом отличается от оператора состояния и почему первый чаще используется на практике. Состояния в Apache Flink Apache Flink поддерживает как stateful-, так и...

23Дек
2021

Миллиарды сообщений в секунду: микросервисная ML-система на Apache Kafka и DynamoDB

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

обучение Kafka, курсы Kafka, Apache Kafka Для инженеров и разработчиков, DynamoDB курсы NoSQL, обучение дата-инженеров, обучение большим данным, архитектура больших данных, ML Feature Store Apache Kafka, Школа Больших Данных Учебный Центр Коммерсант

В этой статье разберем кейс бразильской фудтех-компании Ifood по реализации микросервисной ML-системы на Apache Kafka и serverless NoSQL-СУБД DynamoDB с пропускной способностью миллиарды сообщений в секунду. Сложности масштабирования микросервисов и оперативное чтение данных из Feature Store с помощью библиотеки Sarama – Go-клиента для Apache Kafka. Проблема микросервисов при множестве обращений...