Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

18Июн
2023

Очереди и группы общего доступа для потребителей Apache Kafka: разбираемся с KIP-932

Автор Анна Вичуговав категории Kafka, Блог

KIP-932, группы потребителей и группы общего доступа Kafka, потребитель Kafka, дата-инженер разработчик Apache Kafka примеры курсы обучение, обучение Apache Kafka, курсы Apache Kafka, Apache Kafka потребление сообщений курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Что такое группы общего доступа для потребителей, чем это отличается от существующей концепции группы потребителей, почему в Apache Kafka появляются очереди и чем это улучшит потоковую обработку событий. Что такое KIP-932: группы общего доступа потребления данных из Apache Kafka Напомним, группы потребителей в Kafka предназначены для повышения надежности упорядоченной доставки...

15Июн
2023

3 способа прочитать данные из Kafka с помощью Spark

Автор Анна Вичуговав категории Kafka, Spark, Блог

Spark Streaming Kafka Google Colab, Spark SQL Kafka Streaming для разработчиков, курсы по Spark, обучение Apache Spark, курсы Spark-программистов, обучение разработчиков Big Data, разработка Spark-приложений, Школа Больших Данных Учебный Центр Коммерсант

Как Spark-приложение может прочитать данные из топиков Kafka: обзор вариантов и способов их использования. А также рассмотрим, почему Spark Structured Streaming заменила прямой поток и подход на основе приемника. Прямой поток и подход на основе приемника Будучи мощным фреймворком разработки распределенных приложений, Apache Spark позволяет считывать данные в потоковом режиме...

11Июн
2023

Как считать данные из Apache Kafka с определенного момента: пишем Python-скрипт

Автор Анна Вичуговав категории Kafka, Блог

Python-продюсер и потребитель Kafka, Kafka-Python, дата-инженер разработчик Apache Kafka примеры курсы обучение, обучение Apache Kafka, курсы Apache Kafka, Apache Kafka потребление сообщений курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Иногда возникает потребность в повторном чтении данных из Apache Kafka с определенного момента времени. Сегодня рассмотрим, как это сделать, написав простенький Python-скрипт потребления из раздела топика. Публикация данных в Kafka В качестве примера возьмем ранее рассмотренный в этой статье кейс приема потока обращений в интернет-магазин. Обращения могут представлять собой заявки...

05Июн
2023

Из Kafka во Flink: пишем Python-приложение

Автор Анна Вичуговав категории Flink, Блог

PyFlink Google Colab, Apache Flink Python Colab Kafka, обучение Flink Kafka, Upstash Kafka, курсы Kafka Flink, Kafka serverless, Apache Kafka и Flink для разработчиков, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, как написать и запустить в Google Colab свое Python-приложение считывания данных из топика Kafka с помощью коннектора FlinkKafkaConsumer из библиотеки pyflink.datastream.connectors и почему заставить его работать оказалось не так просто. Использование FlinkKafkaConsumer для доступа к Kafka из Flink приложения Недавно я показывала, как написать PyFlink-скрипт считывания данных из...

04Июн
2023

Разделенный мозг и зомби-продюсеры в Apache Kafka: как с этим бороться

Автор Анна Вичуговав категории Kafka, Блог

архитектура распределенных систем Kafka, проблема разделенного мозга в распределенных системах, архитектор кластера разработчик Apache Kafka примеры курсы обучение, обучение Apache Kafka, курсы Apache Kafka, архитектура кластера проблемы и решения курсы примеры обучение, распределенные системы больших данных с Kafka примеры курсы обучение, обучение большим данным, зомби-процессы в распределенных системах, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Что такое «проблема разделенного мозга» в распределенных системах, почему она возникает, при чем здесь зомби-продюсеры и как с этим бороться. Разбираем на примере Apache Kafka. Проблема разделенного мозга или зомби-процессы в распределенных системах Термин зомби-процесс пришел из области операционных систем, однако, в распределенных системах его интерпретация абсолютно противоположна исходному значению....

27Май
2023

Kafka Streams vs ksqlDB: что и когда использовать

Автор Анна Вичуговав категории Kafka, Блог

ksqlDB Apache Kafka примеры курсы обучение, Kafka Streams vs ksqlDB сходства и отличия, чем похожи и как отличаются Kafka Streams и kSQL, Kafka Streams ksqlDB примеры курсы обучение, обучение Apache Kafka для разработчиков и дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали, чем Kafka Streams отличается от Consumer API. Сегодня рассмотрим, в чем разница между Kafka Streams и ksqlDB, а также разберем, почему использовать этот компонент экосистемы Apache Kafka не так просто. Как работает ksqlDB: практический пример Apache Kafka является полноценной экосистемой потоковой передачи, вокруг которой существует множество полезных...

19Май
2023

Под капотом Kafka Connect: источники, приемники и коннекторы

Автор Анна Вичуговав категории Kafka, Блог

курсы Apache Kafka Connect для дата-инженеров и ИТ-архитекторов, обучение разработчиков курсы Apache Kafka, курсы по Kafka Connect, обучение Kafka, разработка потоковых приложений Kafka, интеграция данных с Apache Kafka, обучение разработчиков Big Data, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим принципы работы компонента экосистемы Apache Kafka под названием Connect и разберемся, как он устроен. Программная архитектура коннекторов и способы избежать дубликатов при зависании внешней системы-приемника. Архитектура и принципы работы Kafka Connect Apache Kafka не зря считается платформой потоковой передачи, а не просто брокером сообщений. Вокруг нее выстроена целая...

12Май
2023

Разделы и потребители Apache Kafka: практический пример

Автор Анна Вичуговав категории Kafka, Блог

Python-продюсер и потребитель Kafka, Kafka-Python, дата-инженер администратор кластера разработчик Apache Kafka примеры курсы обучение, обучение Apache Kafka, курсы Apache Kafka, Apache Kafka потребление сообщений курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Чтобы разобраться, как на самом деле работают разделы и потребители Apache Kafka, сегодня рассмотрим небольшой демонстрационный пример, иллюстрирующий потребление сообщений. Пишем Python-скрипты публикации и потребления сообщений из разных разделов топика Kafka с занесением данных в несколько вкладок Google-таблицы. Как сообщения распределяются по разделам топика Kafka Напомним, в Apache Kafka раздел...

06Май
2023

2 способа удалить сообщения из топика Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

как удалить сообщения из топика Kafka, Apache Kafka архитектура и принципы работы примеры курсы обучение, администрирование кластера Kafka примеры курсы обучение, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, Apache Kafka для дата-инженеров, Apache Kafka для администраторов и инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Почему в Apache Kafka нет функций очистки топика и как же все-таки удалить из него все сообщения, если очень нужно, используя конфигурации retention и другие приемы администрирования кластера. Политика очистки и конфигурации retention В отличие от брокеров сообщений, которые после отправки данных приложениям-потребителям, удаляют их из очереди, Apache Kafka хранит...

21Апр
2023

UML-диаграмма последовательности потребления сообщений из Kafka

Автор Анна Вичуговав категории Kafka, Блог

Kafka примеры курсы обучение, потребление сообщений из Kafka UML sequence, Python-потребитель Kafka, Kafka-Python, дата-инженер администратор кластера разработчик Apache Kafka конфигурации примеры курсы обучение, обучение Apache Kafka, курсы Apache Kafka, Apache Kafka Streams курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Вчера мы разбирали работу приложения-продюсера и строили UML-диаграмму последовательности. Сегодня рассмотрим, какие системные вызовы происходят при потреблении сообщений из Apache Kafka, при чем здесь группы потребителей и фиксация смещений. Как работает потребитель Kafka Аналогично разработке приложения-продюсера, при написании кода потребителя, который считывает данные из топика Apache Kafka, используются методы специальных...

20Апр
2023

Под капотом продюсера Kafka: UML-диаграмма публикации сообщений

Автор Анна Вичуговав категории Kafka, Блог

Python-продюсер Kafka, Kafka-Python, дата-инженер администратор кластера разработчик Apache Kafka конфигурации примеры курсы обучение, обучение Apache Kafka, курсы Apache Kafka, Apache Kafka Streams курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как на самом деле работает приложение-продюсер Apache Kafka: разбираемся с конфигурациями и составляем UML-диаграмму последовательности системных вызовов при публикации сообщений в топик. Как работает продюсер Kafka Когда разработчик пишет приложение-продюсер, которое публикует сообщение в топик Apache Kafka, он использует методы специальных библиотек, таких как kafka-python и пр. Достаточно только создать...

19Апр
2023

Знакомство с DataStream API в Apache Flink: запуск PyFlink-скрипта в Google Colab

Автор Анна Вичуговав категории Flink, Kafka, Блог

Как использовать DataStream API в Apache Flink: пишем потребителя из Kafka и запускаем скрипт в Google Colab. StreamExecutionEnvironment и методы коллекций потока данных в PyFlink. DataStream API в Apache Flink: PyFlink в Google Colab для работы с Kafka Apache Flink предоставляет множество возможностей разработчикам на Scala и Java, а также...

18Апр
2023

Зачем вам Chango: новая платформа данных для архитектуры LakeHouse

Автор Анна Вичуговав категории NoSql, Блог

потоковая обработка событий в Big Data, архитектура данных, архитектура платформы данных, Lakehouse Chango, Data Lakegouse, Trino движок SQL, Школа Больших Данных Учебный Центр Коммерсант

Как реализовать гибридную архитектуру данных Lakehouse на новой платформе Chango с движком обработки распределенных запросов Trino без дополнительного развертывания кластера Kafka и разработки Spark-приложений потоковой передачи событий. Что такое Trino: принципы работы распределенного SQL-движка О том, что представляет собой новая гибридная архитектура данных под названием Lakehouse, мы подробно писали здесь,...

11Апр
2023

Kafka Streams vs Consumer API: 4 сходства и 5 отличий

Автор Анна Вичуговав категории Kafka, Блог

Kafka Streams vs Consumer API сходства и отличия, чем похожи и как отличаются Kafka Streams и Consumer API, Kafka Streams Consumer API примеры курсы обучение, обучение Apache Kafka для разработчиков и дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Что общего у Kafka Streams и Consumer API, чем они отличаются и что выбирать для практического использования: краткое руководство для разработчика приложений потоковой обработки событий. Возможности и ограничения Kafka Streams и Consumer API Поскольку Apache Kafka как огромная экосистема со множеством компонентов для потоковой передачи событий, обилие и разнообразие этих...

08Апр
2023

Потоковые режимы коннектора Flink SQL к Kafka

Автор Анна Вичуговав категории Flink, Блог

Flink Kafka connector SQL, дедупликация Apache Flink SQL примеры курсы обучение, потоковая обработка данных Apache Flink SQL, Apache Flink SQL для дата-инженеров примеры курсы обучение, как удалить дубли в потоковых данных Apache Flink SQL, курсы Apache Flink для разработчиков, обучение большим данным, инженерия Big Data Apache Flink SQL, Школа Больших Данных Учебный Центр Коммерсант

Как не запутаться в многообразии коннекторов к Kafka, доступных во Flink Table API, и выбрать наиболее подходящий для своего сценария применения. Разница между Append Mode и Upsert-режимом коннектора Flink SQL к Kafka. 2 режима работы коннектора Kafka в Apache Flink Apache Flink поставляется с универсальным соединителем Kafka, который поддерживает последнюю...

04Апр
2023

5 проблем с распределенными очередями сообщений и их решения в Apache Kafka с RabbitMQ

Автор Анна Вичуговав категории Kafka, Блог

Kafka vs RabbitMQ очередь сообщений примеры курсы обучение проблемы и решения, очереди в Kafka RabbitMQ примеры курсы обучение, курсы по Apache Kafka, Kafka для разработчиков и дата-инженеров, обучение Kafka, Apache Kafka vs RabbitMQ, обучение большим данным, курсы Big Data, Школа Больших Данных Учебный Центр Коммерсант

Какие проблемы характерны для распределенных очередей сообщений, почему они случаются и как с ними справиться. Разбираемся со сбоями, ошибками и перегрузками на примере Apache Kafka и RabbitMQ. Проблемы с распределенными очередями и главные причины их появления Хотя Apache Kafka — это целая экосистема со множеством компонентов для потоковой передачи событий,...

31Мар
2023

Лучшие практики работы с DLQ-очередями в Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

DLQ Kafka, очередь недоставленных сообщений в Kafka примеры курсы обучение, курсы по Apache Kafka, Kafka для разработчиков, обучение Kafka, Apache Kafka Dead Letter Queue, обучение большим данным, курсы Big Data, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про очереди недоставленных сообщений в Apache Kafka и RabbitMQ. Сегодня поговорим про стратегии обработки ошибок, связанные с DLQ-очередями в Kafka, а также рассмотрим, какие сообщения НЕ надо помещать в Dead Letter Queue. 4 стратегии работы с DLQ-топиками в Apache Kafka Напомним, в Apache Kafka в очереди недоставленных...

29Мар
2023

4 главных настройки процессора Apache NiFi в GUI: параметры конфигурации

Автор Анна Вичуговав категории NiFi, Блог

курсы Apache NiFi, обучение Apache NiFi, Apache NiFi для инженеров данных и администраторов, инженерия больших данных курсы обучение, курсы дата-инженеров и администраторов NiFi, Cloudera NiFi, Школа Больших Данных Учебный центр Коммерсант

Чтобы сделать наши курсы по Apache NiFi Для дата-инженеров еще более полезными, сегодня поговорим про настройку процессоров. Читайте далее, как распараллелить задачи и потоки, задержать FlowFile, задать обратное давление и настроить другие полезные конфигурации. Как настроить конфигурации процессора Apache NiFi Будучи мощным инструментом дата-инженерии, Apache NiFi содержит множество обработчиков –...

24Мар
2023

Очереди недоставленных сообщений в Apache Kafka и RabbitMQ

Автор Анна Вичуговав категории Kafka, Блог

DLQ Kafka RabbitMQ, очередь недоставленных сообщений в Kafka RabbitMQ примеры курсы обучение, курсы по Apache Kafka, Kafka для разработчиков, обучение Kafka, Apache Kafka vs RabbitMQ, обучение большим данным, курсы Big Data, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, зачем в системах асинхронного обмена данными нужны очереди недоставленных сообщений, как их организовать и обработать. Разбираемся с Dead Letter Queue на примере Apache Kafka и RabbitMQ. Обработка недоставленных сообщений в Apache Kafka Хотя Apache Kafka и RabbitMQ не являются взаимозаменяемыми альтернативами, именно эти системы чаще всего используются для...

22Мар
2023

MLOps c Kafka Streams и gRPC: 3 способа развернуть ML-модель в production

Автор Анна Вичуговав категории Kafka, Machine Learning, Блог

MLOPS примеры курсы обучение, Kafka Streams Kubernetes Machine Learning MLOps, курсы машинного обучения Kafka MLOps Kubernetes TensorFlow, gRPC Kafka TensorFlow, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, как развернуть модель машинного обучения в конвейере Apache Kafka, используя потоковый API технологии удаленного вызова процедур от Google под названием gRPC и сервер ML-моделей TensorFlow Serving. Краткий ликбез по gRPC Напомним, gRPC – это технология интеграции систем, включая клиентский и серверный компоненты, основанная на удаленном вызове процедур в...