Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

11Окт
2021

Повышаем параллелизм и пропускную способность потоковых приложений с Apache Kafka и Akka Streams

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, курсы Apache Kafka, Kafka Streams для разработчиков примеры обучение курс, тренинги по Apache Kafka, обучение Kafka Streams Akka Streams примеры курсы, разработка потоковых приложений, масштабирование потоковой обработки с Kafka и Akka Streams, Школа Больших Данных Учебный центр Коммерсант

В этой статье для разработчиков Apache Kafka рассмотрим пример масштабирования потоковой обработки событий с Akka Streams. Читайте далее, что не так с параллелизмом при одновременном выполнении событий на запись, как Akka Streams решает эту проблему и при чем здесь Apache Kafka. Проблемы масштабирования потоковой обработки в Kafka Streams Масштабная потоковая...

09Окт
2021

Платформа аналитики больших данных Леруа Мерлен: потоковый CDC с Apache Kafka, NiFi, AirFlow и Flink в DWH на Greenplum

Автор Анна Вичуговав категории AirFlow, Flink, Greenplum, Kafka, NiFi, Spark, Блог

курсы дата-инженеров, курсы Apache Kafka NiFi Greenplum AirFlow Spark Flink обучение, практическое обучение инженеров данных курсы, аналитика больших данных примеровы кейсы, Школа Больших Данных Учебный центр Коммерсант

Чтобы добавить в наши курсы для дата-инженеров по технологиям Apache Kafka, Spark, AirFlow, NiFi, Flink и Greenplum, еще больше практических примеров, сегодня разберем кейс ритейлера Леруа Мерлен. Читайте далее, как сотрудники российского отделения этой международной компании интегрировали в единую платформу более 350 реляционных СУБД и NoSQL-источников с помощью CDC-подхода на...

07Окт
2021

Потоковый конвейер обработки видео с Apache Kafka и алгоритмами Machine Learning

Автор Анна Вичуговав категории Kafka, Блог

компьютерное зрение, распознавание лиц примеры обучение курсы, видеоаналитика примеры, конвейер обработки видео в реальном времени, обучение Kafka, курсы Kafka, администратор Kafka курсы обучение, Apache Kafka для разработчиков, обучение Apache Kafka на практических примерах, интернет вещей, IoT, кейсы интернета вещей, Kafka Streams, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим пример построения интеллектуальными конвейера потоковой обработки видео с Apache Kafka и алгоритмами машинного обучения. Читайте далее, зачем для этого нужен протокол RTSP, что такое библиотека Sarama и как интегрировать алгоритмы машинного/глубокого обучения в систему видеоаналитики реального времени. Потоковая видеоаналитика: прием мультимедиа в реальном времени Видеоаналитика – одно из...

29Сен
2021

FlowKat и Monokl: еще пара средств мониторинга за кластером Apache Kafka на базе KafkaJS

Автор Анна Вичуговав категории Kafka, Блог

администрирование Kafka-кластера, мониторинг состояния Apache Kafka, администратор кластера Apache Kafka курсы обучение, Apache Kafka курсы обучение администраторов и дата-инженеров, мониторинг кластера Apache Kafka инструменты примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Недавно мы рассказывали про KafkaJS – клиент Apache Kafka для Node.js, который отличается небольшим размером и простым развертыванием с удобным API. Сегодня рассмотрим еще пару полезных инструментов визуализации данных о Kafka-кластере на базе KafkaJS и Prometheus. Читайте далее, что такое FlowKat и Monokl, а также зачем они нужны дата-инженеру, разработчику...

24Сен
2021

Что такое KafkaJS: как скрестить ежа с ужом, а Apache Kafka с Node.js

Автор Анна Вичуговав категории Kafka, Блог

KafkaJS, обучение Kafka, курсы Kafka, Apache Kafka для разработчиков, Apache Kafka KafkaJS примеры, обучение больших данных на примерах, кейсы интернета вещей, IoT Kafka, примеры использования Apache Kafka, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, что такое KafkaJS, как это связано с Apache Kafka и JavaScript, в чем преимущества этой технологии и как разработчику распределенных приложений потоковой аналитики больших данных использовать ее на практике. Также вас ждет краткий ликбез по Node.js и примеры разработки KafkaJS-приложения. Краткий ликбез по Node.js Важными достоинствами архитектуры потоковой передачи...

17Сен
2021

Горизонтальное масштабирование кластера Apache Kafka: тонкости переназначения разделов

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, курсы Kafka, администратор Kafka курсы обучение, Apache Kafka для разработчиков, Kafka администрирование обучение курсы, Kafka cluster администратор, балансировка разделов на новых брокерах Apache Kafka, обучение большим данным, администрирование кластеров Кафка курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В поддержку курсов по администрированию Apache Kafka, сегодня рассмотрим особенности масштабирования кластера и связанное с этим переназначение разделов. Читайте далее, чем горизонтальное масштабирование лучше вертикального, как переназначить разделы между брокерами Kafka с целью перебалансировки нагрузки и зачем ограничивать полосу пропускания для перемещения реплик между узлами кластера. Проблемы масштабирования кластера Apache...

15Сен
2021

Потоковая аналитика больших данных в Grafana с Apache Kafka, Flink и SQL Stream Builder

Автор Анна Вичуговав категории Flink, Internet of Things, Kafka, Use Cases, Блог

курсы Kafka, обучение Apache Kafka, Apache Kafka для разработчиков, потоковая обработка событий с Apache Kafka и Flink курсы обучение, обучение большим данным для разработчиков, курсы по Big Data, потоковая аналитика больших данных, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, как построить конвейер потоковой обработки событий на Apache Kafka, Flink и SQL Stream Builder с визуализацией результатов в Grafana. Далее вас ждет практический кейс применения технологий Big Data в реальном производстве на примере телеметрии процессов ферментации продуктов в небольшой частной пивоварне. Постановка задачи: бизнес-контекст и используемые технологии В...

14Сен
2021

Сложная обработка событий от IoT-устройств в Apache Kafka: кейс Tesla

Автор Анна Вичуговав категории Internet of Things, Kafka, Блог

обучение Kafka, курсы Kafka, администратор Kafka курсы обучение, Apache Kafka для разработчиков, обучение Apache Kafka на практических примерах, интернет вещей. IoT, кейсы интернета вещей, Kafka Streams, Школа Больших Данных Учебный центр Коммерсант

Завершая серию статей по IoT-платформе компании Tesla на базе Apache Kafka, сегодня рассмотрим проблемы пиковой загрузки системы и особенности обработки высокоприоритетных событий. Читайте далее, как оптимально определить ключ раздела, чтобы снизить затраты на передачу данных, избежать перегрузки в пиковые моменты и отделить пользователей данных от разработчиков и дата-инженеров. Тонкости обработки...

08Сен
2021

Аналитика слишком больших данных в IoT-инфраструктуре Tesla c Apache Kafka, Alpakka и Akka Streams

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, курсы Kafka, Apache Kafka для дата-инженеров и разработчиков, Apache Kafka коннектор Alpakka и Akka Streams кейсы, обучение больших данных на примерах, кейсы интернета вещей, IoT Kafka, примеры использования Apache Kafka, Школа БольшихДанных Учебный центр Коммерсант

Мы уже упоминали, что Apache Kafka не слишком хорошо обрабатывает сообщения чрезмерно большого размера. Сегодня рассмотрим, как эта проблема решается в конвейерах потоковой обработки IoT-инфраструктуры Tesla. Читайте далее про модификацию синтаксического анализатора данных от множества устройств интернета вещей с поиском компромисса между скоростью и надежностью с помощью коннектора Alpakka к...

02Сен
2021

Управление множеством IoT-устройств в Tesla на платформе Apache Kafka: организация топиков и парсинг сообщений

Автор Анна Вичуговав категории Internet of Things, Kafka, Use Cases, Блог

обучение Apache Kafka, курсы Kafka для дата-инженеров и разработчиков, Kafka Streams курсы обучение, Internet of things, IoT, интернет вещей кейсы примеры, Школа Больших Данных Учебный центр Коммерсант

Продолжая разбирать кейс компании Tesla по организации централизованного управления устройствами интернета вещей (Internet of Things, IoT), сегодня разберем, как выполняется обработка сообщений в топиках Apache Kafka с помощью Confluent Schema Registry и Kafka Streams. Читайте далее, как определить потоковый процессор для парсинга данных в CSV и JSON-форматах с использованием схемы...

31Авг
2021

Тонкости потоковой передачи данных в BigQuery из Apache Kafka и Spark: 5 неочевидных особенностей

Автор Анна Вичуговав категории Kafka, Spark, Блог

курсы по Kafka, обучение Kafka, курсы по Spark, обучение Spark, аналитика больших данных курсы обучение, примеры конвейера аналитики больших данных, аналитика больших данных с Kafka и Spark Для дата-инженеров курсы обучение, Школа Больших Данных Учебный центр Коммерсант

В рамках курсов для дата-инженеров и разработчиков распределенных приложений, сегодня рассмотрим пример построения системы потоковой передачи для аналитики больших данных на базе Apache Kafka, Spark и Google BigQuery. Читайте далее про Proof of Concept для конвейера продуктовой аналитики, который обрабатывает 50 миллиардов событий каждый день, и какие важные уроки ИТ-архитектор...

30Авг
2021

Миллион проблем IoT и Apache Kafka для их решения: опыт Tesla

Автор Анна Вичуговав категории Internet of Things, Kafka, Блог

обучение Kafka, курсы Kafka, примеры Internet of Things Kafka, интернет вещей кейсы, IoT Kafka, потоковая обработка больших данных Apache Kafka, Школа Больших Данных учебный центр Коммерсант

Являясь лидером отрасли, IoT-устройства Tesla обрабатывают триллионы событий в день, чтобы повысить эффективность своих электроавтомобилей. Однако, такая производительность была получена не сразу: чтобы достичь ее, инженерам компании пришлось решить множество проблем из области интернета вещей (Internet of Things, IoT). Сегодня рассмотрим, как часть из них была решена с помощью Apache...

21Авг
2021

Чем хорош Splunk S2S Source Connector от Confluent и как это связано с Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

Курсы по Kafka, обучение Apache Kafka, Kafka Connect курсы обучение администраторов и дата-инженеров, обучение администрирование кластера Apache Kafka, интеграция систем с Apache Kafka, коннектор Spalunk Kafka, Школа Больших Данных Учебный центр Коммерсант

В этой статье для дата-инженеров и администраторов Apache Kafka рассмотрим, зачем Confluent выпустил премиум коннектор Splunk S2S Source и как на базе этих платформ построить эффективную систему потоковой аналитики больших данных. Также читайте далее, что такое универсальный сервер рассылки Splunk и какие конфигурации коннектора позволяют автоматически создавать топик Kafka для сбора...

13Авг
2021

Как устроен API администратора Apache Kafka: методы AdminClient с примерами

Автор Анна Вичуговав категории Kafka, Блог

курсы Kafka администратор кластера, обучение Kafka для разработчиков, обучение Apache Kafka, курсы Apache Kafka, Kafka AdminClient, Admin Client Kafka пример, Школа Больших Данных Учебный центр Коммерсант

В рамках курсов по Apache Kafka для разработчиков и администраторов кластера, сегодня заглянем под капот AdminClient и на практических примерах разберем, как динамически создавать новый топик и описывать его программным способом через API. Еще рассмотрим, почему метод deleteTopics() нужно применять очень осторожно, а также вспомним основы ООП, говоря про классы...

11Авг
2021

Как создать микросервисный ML-конвейер в реальном времени на Apache Kafka и Spark

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

обучение Kafka, курсы Kafka, обучение Spark, обучение PySpark, обучение Machine Learning, обучение Python в больших данных на реальных кейсах, курсы Spark для разработчиков ML, курсы PySpark для аналитики больших данных, Machine Learning NLP примеры, Python в аналитике больших данных реальные примеры, Школа Больших Данных Учебный центр Коммерсант

Чтобы дополнить наши курсы по Kafka и Spark интересными примерами, сегодня рассмотрим практический кейс разработки микросервисного конвейера машинного обучения на этих фреймворках. Читайте далее, зачем выносить ML-компонент в отдельное Python-приложение от остальной части Big Data pipeline’а, и как Docker поддерживает эту концепцию микросервисного подхода. Постановка задачи и компоненты микросервисного ML-конвейера...

03Авг
2021

ksqlDB 0.19.0: июньские новинки для разработчиков Kafka от Confluent

Автор Анна Вичуговав категории Kafka, Блог

ksqlDB курсы Kafka, обучение Kafka Streams для разработчиков, обучение Apache Kafka, курсы Apache Kafka, обучение KSQL, курсы KSQL, Школа Больших Данных Учебный центр Коммерсант

6 июня 2021 года компания Confluent, которая продвигает коммерческую версию платформы Apache Kafka, выпустила новый релиз ksqlDB. Сегодня рассмотрим самые важные исправления ошибок и новые функции ksqlDB 0.19.0, уделив особое внимание SQL-запросам соединения таблиц через JOIN по внешнему ключу. ТОП-10 исправленных ошибок в новом релизе ksqlDB Напомним, ksqlDB – это...

28Июл
2021

100% SLA в Apache Kafka: AVRO, заголовки и повторные попытки обработки данных

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы Apache Kafka, SerDe Apache Kafka AVRO JSON, обучение разработчиков курсы Apache Kafka, курсы по Kafka, обучение Kafka, разработка потоковых приложений Kafka, обработка больших данных с Apache Kafka, обучение разработчиков Big Data, Школа Больших Данных Учебный центр Коммерсант

Продолжая разбирать тонкости сериализации данных в Apache Kafka на практических примерах, сегодня рассмотрим кейс индийской ИТ-компании Naukri Engineering о повторной обработке сообщений и особенностях форматов. Читайте далее, чем хороши заголовки Kafka и почему их не так просто использовать, а также зачем писать свой сериализатор с десериализатором для достижения 100%-ного SLA....

20Июл
2021

Еще больше потоковой аналитики Big Data с Kafka Streams: обработка больших сообщений

Автор Анна Вичуговав категории Kafka, Блог

курсы Apache Kafka Streams KSQL, SerDe Apache Kafka Streams Confluent Cloud, обучение разработчиков курсы Apache Kafka, курсы по Kafka Streams, обучение Kafka, разработка потоковых приложений Kafka, обработка больших данных с Apache Kafka KSQL, обучение разработчиков Big Data, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим проблему обработки больших сообщений в Apache Kafka Streams и способы ее решения с помощью средства сериализации и десериализации (SerDe) от немецкой ИТ-компании Bakdata. Узнайте, почему максимального лимита конфигурации max.message.bytes не хватает, зачем и как приложение Kafka Streams материализует данные, а также каким образом kafka-s3-backed-serde читает и записывает большие...

13Июл
2021

Как устроен JDBC-коннектор источника Kafka Confluent и при чем здесь реестр схем

Автор Анна Вичуговав категории Kafka, Блог

курсы Apache Kafka Connect, JDBC коннектор Apache Kafka Connect Confluent, обучение разработчиков курсы Apache Kafka, курсы по Kafka Connect, обучение Kafka, разработка потоковых приложений Kafka, интеграция данных с Apache Kafka, обучение разработчиков Big Data, Школа Больших Данных Учебный центр Коммерсант

Недавно мы рассматривали пример потоковой передачи данных между реляционными СУБД с помощью готовых JDBC-коннекторов через cURL-вызовы к REST API Kafka Connect. Сегодня заглянем под капот такой интеграции и разберем подробнее, что именно представляет собой JDBC-коннектор источника Kafka от Confluent. Компоненты Kafka Confluent для потоковой интеграции данных: коннекторы и реестр схем...

05Июл
2021

Всего 2 cURL-вызова для потокового обновления данных с Apache Kafka Connect

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы Apache Kafka Connect, обучение разработчиков курсы Apache Kafka, курсы по Kafka Conncect, обучение Kafka, разработка потоковых приложений Kafka, интеграция данных с Apache Kafka, обучение разработчиков Big Data, Школа Больших ДАнных Учебный центр Коммерсант

Сегодня в рамках обучения разработчиков распределенных приложений и дата-инженеров рассмотрим практический пример потоковой интеграции данных из 2-х разных источников с Apache Kafka. Читайте далее, как мгновенно передать данные между реляционными СУБД с помощью готовых JDBC-коннекторов через cURL-вызовы к REST API Kafka Connect. Apache Kafka как средство потоковой интеграции данных Интеграция...