Публикации с меткой Kafka

13Окт
2025

Как управлять топиками Kafka- полное удаление, очистка и аварийные сценарии

Автор Nikolay Komissarenkoв категории Kafka, Блог, Статьи

Управление топиками Apache Kafka - как удалить данные из Kafka

Как управлять топиками Kafka: полное удаление, очистка и аварийные сценарии Apache Kafka — мощный инструмент, но без должного ухода он быстро "захламляется". Топики, которые вы создавали для тестов, старые проекты или просто логи, со временем начинают занимать место и мешать. А иногда они разрастаются так, что кластер "ложится"...

07Июл
2025

Гарантии доставки сообщений At-Most-Once и At-Least-Once

Автор Nikolay Komissarenkoв категории Kafka, Use Cases, Блог, Статьи

At most once delivery - гарантии доставки сообщений курсы от Школы Больших данных

В мире распределенных систем, гарантии доставки сообщений, при передаче данных между сервисами — это фундаментальная задача. Но что происходит, когда мы отправляем сообщение из точки А в точку Б через сеть, которая по своей природе ненадежна? Сетевые задержки, сбои серверов, перезапуски приложений — все это может привести к потере или...

05Май
2025

Kafka без дисков: разбираемся с KIP-1150

Автор Анна Вичуговав категории Статьи

Kafka курсы примеры обучение, Kafka для администратора кластера, Kafka примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Почему провайдерам Kafka как сервиса недостаточно многоуровневого хранилища (KIP-405) и зачем они предложили новое улучшение KIP-1150, меняющее архитектуру хранения и репликации данных напрямую в объектные системы. Кому и зачем понадобилась бездисковая Kafka: что не так с KIP-405 Одной из наиболее интересных тем вокруг Apache Kafka в апреле 2025 года стало...

29Апр
2025

Проблемы ручной фиксации смещения потребителей в Kafka и их решения с KIP-1094

Автор Анна Вичуговав категории Kafka

Когда и зачем фиксировать смещение потребителей Kafka вручную, с какими проблемами можно при этом столкнуться и как улучшение KIP-1094 обеспечивает целостность потоков данных в распределенных средах. Когда и зачем фиксировать смещения потребителей в Kafka вручную Недавно мы разбирали, как выполняется автоматическая фиксация смещений потребителей в Apache Kafka. Она выполняется периодически....

21Апр
2025

Водяные знаки в заданиях Flink для потоковой обработки данных из Kafka

Автор Анна Вичуговав категории Flink, Kafka

Flink Kafka примеры курсы обучение, обучение дата-инженеров, потоковая обработка данных курсы примеры обучение, Школа Больших Данных

Почему задание Flink не обрабатывает потоковые данные из топика Kafka и при чем здесь водяные знаки: причины потери данных или растущей задержки вычислений и способы их решения. Почему задание Flink не обрабатывает потоковые данные и при чем здесь водяные знаки? Рассмотрим простой потоковый конвейер на Apache Flink и Kafka: задание...

19Апр
2025

Где сохраняются и как фиксируются смещения потребителей Apache Kafka

Автор Анна Вичуговав категории Kafka

Как Apache Kafka обеспечивает упорядоченность сообщений в рамках раздела, где хранятся смещения потребителей и зачем их фиксировать вместе со эпохой брокера-лидера. Что такое смещения потребителей Apache Kafka и где они хранятся Асинхронная интеграция между информационными системами через Apache Kafka основана на смещениях потребителей – позиции сообщения в разделе топика. Раздел...

13Апр
2025

Проблема изоляции ИИ-агентов и ее решение с помощью потоковой передачи

Автор Анна Вичуговав категории Machine Learning, искусственный Интеллект

Kafka примеры курсы обучение, Machine Learning примеры курсы обучение, MLOPS примеры курсы обучение, примеры курсы обучение дата-инженеров, инженерия больших данных, Школа Больших Данных Учебный Центр Коммерсант

Как связать ИИ-агентов: событийно-ориентированная архитектура и потоковая передача событий для интеграции доменных LLM в мультиагентную систему. Зачем нужна интеграция ИИ-агентов О проблеме изоляции и рассинхронизации данных в корпоративных хранилищах мы уже писали здесь. Похожая ситуация наблюдается и при внедрении систем агентского ИИ, где большие языковые модели (LLM, Large Language Model)...

09Апр
2025

ИИ-агенты на Apache Kafka и MCP-серверы: организация потокового обогащения LLM

Автор Анна Вичуговав категории Kafka, Machine Learning

Почему MCP-серверы с технологиями потоковой передачи событий в LLM стали трендом: примеры обогащения ИИ-агентов контекстом из Kafka. Внедрение MCP в Confluent Cloud для взаимодействия с Apache Kafka Хотя MCP-протокол, позволяющий ML-модели новыми контекстными данными, что необходимо для больших языковых моделей (LLM, Large Language Model), довольно прост с технической точки зрения,...

31Мар
2025

Обновление курса по Kafka: KRaft и другие новинки версии 4.0

Автор Анна Вичуговав категории Новости

Коллеги, как обычно, мы идем в ногу со временем и постоянно обновляем наши курсы с учетом выхода новых релизов. Приглашаем вас на обновленный курс по администрированию Apache Kafka, где учтены самые главные изменения относительно предыдущих версий: Архитектура Kafka 4 Эволюция Kafka: от Zookeeper к KRaft Новая архитектура без Zookeeper (KIP-500,...

28Мар
2025

Публикация очень больших сообщений в Apache Kafka

Автор Анна Вичуговав категории Kafka

Почему не рекомендуется публиковать в Kafka сообщения больших размеров, и как это сделать, если очень нужно: когда приходится перенастраивать конфигурации продюсера, топика и потребителя, и какие это параметры. Почему не нужно публиковать в Kafka сообщения больших размеров Apache Kafka, как и другие брокеры сообщений, оптимизирована для передачи данных небольшого размера....

19Мар
2025

Удаление топика Kafka: неочевидные проблемы и как их решить

Автор Анна Вичуговав категории Kafka

Почему нельзя просто взять и удалить топик Apache Kafka: что проверить и перенастроить, с помощью каких инструментов и чем можно обойтись вместо непосредственного удаления. Проблемы удаления топика Apache Kafka и их решения Когда у вас есть собственный инстанс или даже кластер Apache Kafka с полными правами на все манипуляции с...

14Мар
2025

Чистота выборов и дилемма CAP-теоремы в кластере Apache Kafka

Автор Анна Вичуговав категории Kafka

Как Apache Kafka реализует компромиссы CAP-теоремы и при чем здесь чистые выборы лидера: проблемы целостности, доступности и устойчивости в распределенной системе с репликацией данных. CAP-теорема в кластере Apache Kafka При публикации сообщений в Apache Kafka, развернутой в кластере из нескольких узлов, данные сохраняются в брокере-лидере раздела, а затем реплицируются по...

05Фев
2025

Автогенерация AsyncAPI-спецификации для Kafka с FastStream: практический пример

Автор Анна Вичуговав категории Kafka

Как получить спецификацию AsyncAPI из кода с помощью декораторов функций публикации и потребления сообщений средствами Python-библиотеки FastStream: простой пример потокового конвейера на Apache Kafka. Еще раз про FastStream и спецификацию AsyncAPI Вчера я рассказывала про Python-библиотеку FastStream для разработки потоковых конвейеров на Apache Kafka, RabbitMQ, NATS и Redis. Помимо мощного,...

04Фев
2025

FastStream для работы с Kafka: практический пример

Автор Анна Вичуговав категории Kafka

Чем хороша Python-библиотека FastStream и как ее использовать для потоковой публикации данных в Apache Kafka: практический пример асинхронной отправки JSON-сообщений. О библиотеке FastStream Для Python-разработчиков есть довольно много библиотек, позволяющих взаимодействовать с Apache Kafka: kafka-python, confluent-kafka, Quix Streams и другие клиенты. О сравнении kafka-python и confluent-kafka я писала здесь, а...

17Янв
2025

Настройка серверов Kafka в режиме KRaft

Автор Анна Вичуговав категории Kafka

Kafka курсы примеры обучение, Kafka для администратора кластера, Kafka примеры курсы обучение администраторов кластера, Школа Больших Данных Учебный Центр Коммерсант

Чем контроллеры Kafka в режиме KRaft отличаются от режима Zookeeper, как их настроить и чем статический кворум отличается от динамического: краткий ликбез для администратора кластера. Брокеры и контроллеры: новые роли серверов Kafka в режиме KRaft Поскольку уже совсем скоро, в мажорном релизе Kafka 4.0, ожидается полный отказ от Zookeeper в...

26Дек
2024

Stateful-преобразование потокового датафрейма из Apache Kafka с Quix Streams

Автор Анна Вичуговав категории Kafka

Kafka курсы примеры обучение, Kafka для разработчика, Kafka примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как Quix Streams реализует отказоустойчивую stateful-обработку потоковых датафреймов из топиков Kafka с помощью встроенного key-value хранилища состояний RocksDB: практический пример. Потоковый stateful-конвейер на Apache Kafka и Quix Streams Продолжая знакомиться с библиотекой Quix Streams, которая позволяет получить потоковые датафреймы из данных в топиках Kafka, сегодня разберем, как здесь организована работа...

24Дек
2024

Потоковый конвейер на Apache Kafka с библиотекой Quix Streams

Автор Анна Вичуговав категории Kafka

Быстрая и простая обработка потоков сообщений в одном приложении с Quix Streams вместо Kafka Streams: практический пример на Python с обогащением и фильтрацией данных. Практический пример потокового конвейера с Apache Kafka и Quix Streams Сегодня я познакомилась с Quix Streams - очередной замечательной библиотекой для создания потоковых конвейеров обработки данных...

13Дек
2024

Обратное давление в потоковых конвейера с Apache Kafka

Автор Анна Вичуговав категории Kafka

Как реализовать концепцию обратного давления (backpressure) в потоковой обработке событий с Apache Kafka: настройка конфигураций на стороне приложений-продюсеров и потребителей, а также мониторинг системных метрик. Обратное давление при публикации событий в Kafka Мы уже писали о том, зачем нужна концепция обратного давления (backpressure) в потоковой передаче событий и как она...

10Дек
2024

Как ClickHouse работает с gRPC: практический пример

Автор Анна Вичуговав категории ClickHouse

ClickHouse примеры курсы обучение, инженерия данных с ClickHouse, работа с ClickHouse , Школа Больших Данных Учебный центр Коммерсант

Чем полезна поддержка gRPC в Clickhouse и как ее реализовать: разбираем интерфейс удаленного вызова процедур на примере потоковой вставки событий пользовательского поведения из Kafka в таблицу колоночной базы данных со стриминговым выводом. Поддержка gRPC в ClickHouse ClickHouse поддерживает gRPC – фреймворк от Google и система удаленного вызова процедур с открытым...

09Дек
2024

Как наполнить Data LakeHouse данными из Apache Kafka с помощью Tableflow

Автор Анна Вичуговав категории Kafka

Data LakeHouse, архитектура данных, iceberg, Kafka курсы примеры обучение, Kafka для разработчика, Kafka примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Что не так с классическими ETL/ELT-конвейерами транзакционных и аналитических систем в гибридное хранилище LakeHouse, и как дата-инженеры платформы Confluent хотят решить эти проблемы с помощью Tableflow, передавая события из Kafka в таблицы Iceberg. Очередная попытка унификации пакетной и потоковой парадигмы Чтобы обеспечивать потребности современного бизнеса в пакетной и потоковой аналитике,...