Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

22Мар
2023

MLOps c Kafka Streams и gRPC: 3 способа развернуть ML-модель в production

Автор Анна Вичуговав категории Kafka, Machine Learning, Блог

MLOPS примеры курсы обучение, Kafka Streams Kubernetes Machine Learning MLOps, курсы машинного обучения Kafka MLOps Kubernetes TensorFlow, gRPC Kafka TensorFlow, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, как развернуть модель машинного обучения в конвейере Apache Kafka, используя потоковый API технологии удаленного вызова процедур от Google под названием gRPC и сервер ML-моделей TensorFlow Serving. Краткий ликбез по gRPC Напомним, gRPC – это технология интеграции систем, включая клиентский и серверный компоненты, основанная на удаленном вызове процедур в...

15Мар
2023

Планирование заданий Spark в EDA-архитектуре

Автор Анна Вичуговав категории Kafka, Spark, Блог

EDA event driven architecture Spark job scheduling, архитектура ПО, архитектура больших данных, Spark для разработчиков и архитекторов, Apache Spark для дата-инженеров, микросервисная архитектура EDA, Школа Больших Данных Учебный Центр Коммерсант

Как организовать эффективное планирование заданий Apache Spark в микросервисной архитектуре, управляемой событиями, с помощью паттернов Idempotent Consumer и Transactional Outbox. Проблемы оркестрации Spark-заданий shell-скриптами и переход к EDA-архитектуре При большом количестве приложений Apache Spark, которые взаимодействуют друг с другом как самостоятельные микросервисы, растет сложность управления ими. В частности, shell-скрипты позволяют...

14Мар
2023

Метрики приложений Kafka Streams и средства их мониторинга

Автор Анна Вичуговав категории Kafka, Блог

мониторинг приложения Apache Kafka Streams примеры инструментов, обучение Kafka Streams, курсы Apache Kafka Streams, Kafka Streams отладка и разработка приложений курсы, мониторинг приложений Kafka, метрики Kafka Streams, Apache Kafka для разработчиков и дата-инженеров примеры курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Как использовать один и тот же топик Kafka для источника и назначения данных, обеспечивая высокую пропускную способность и низкую задержку приложений Kafka Streams. А также рассмотрим, какие встроенные метрики приложений есть у Kafka Streams, как добавить свои собственные и с помощью каких инструментов их отслеживать в реальном времени. Топики и...

04Мар
2023

Перебалансировка потребителей в Apache Kafka: чем она чревата и как с этим быть

Автор Анна Вичуговав категории Kafka, Блог

обучение Kafka, перебалансировка потребителей Kafka примеры курсы обучение, дата-инженер Kafka, курсы Kafka, администратор Kafka курсы обучение, Apache Kafka для разработчиков, Kafka администрирование обучение курсы, Kafka cluster администратор, балансировка разделов на новых брокерах Apache Kafka, обучение большим данным, администрирование кластеров Кафка курсы обучение, Школа Больших Данных Учебный центр Коммерсант

Для параллельной обработки сообщений из своих топиков Kafka использует механизм группы приложений-потребителей, о чем мы писали здесь. Читайте далее, что происходит при изменении состава группы потребителей, чем опасна частая перебалансировка и как ее избежать. Что такое перебалансировка потребителей и почему она случается? Выполняя роль интеграционного звена между приложениями-продюсерами и приложениями-потребителями...

26Фев
2023

Как настроить Flink-приложение для потокового потребления данных из топиков Kafka

Автор Анна Вичуговав категории Flink, Kafka, Блог

Kafka Flink разработка инженерия данных примеры курсы обучение, курсы по Flink и Kafka, Flink watermark windowing timestamp, курсы Apache Flink примеры обучение оконные функции, Flink примеры обучение курсы, обучение большим данных, курсы по flink, обучение Apache Hadoop Flink SQL, Flink Kafka, курсы Apache Hadoop Flink SQL, курсы Hadoop для инженеров данных обучение примеры, обучение большим данным, обучение Kafka, Школа Больших Данных Учебный центр Коммерсант

Почему вместо автоматической фиксации топиков Kafka приложению-потребителю Apache Flink лучше использовать контрольные точки, как создаются и обрабатываются водяные знаки и при чем тут оконные операторы потоковой обработки данных. Смещение в топиках Kafka для потоковых приложений Apache Flink Благодаря мощному API пакетной и потоковой обработки, Apache Flink часто используется для разработки...

21Фев
2023

Доступность vs надежность: выборы лидера в Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

Kafka выборы лидера, Apache Kafka репликация администрирование кластера примеры курсы обучение, отказоустойчивость и надежность Kafka, администрирование кластера Kafka примеры курсы обучение, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, Apache Kafka для дата-инженеров, Apache Kafka для администраторов и инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Сегодня рассмотрим, как внутренние механизмы Apache Kafka обеспечивают отказоустойчивость это потоковой платформы передачи событий, а также разберем, почему до сих пор приходится выбирать между доступностью и надежностью. Выборы нового лидера при сбое прежнего и ожидание подтверждений об успешной репликации. Поиск компромисса между надежностью и доступностью в Apache Kafka Для обеспечения...

14Фев
2023

Зачем вам TigerGraph: обзор графовой MPP-СУБД

Автор Анна Вичуговав категории NoSql, Блог

TigerGraph примеры, графовые базы данных и языки запросов GQL TigerGraph, графовая аналитика больших данных примеры курсы обучение, Data Science TigerGraph обучение курс, анализ графов TigerGraph, TigerGraph примеры курсы обучение, обучение большим данным, Data Analyst TigerGraph курсы примеры обучение, Школа Больших Данных Учебный Центр Коммерсант

Продолжая разговор про языки запросов к графовым базам данных, сегодня познакомимся с GSQL, который поддерживается в MPP-СУБД TigerGraph. Как работает эта распределенная NoSQL-база данных и каким образом реализует ACID-требования к транзакциям в операциях с графами. Архитектура и принципы работы графовой MPP-СУБД TigerGraph — это распределенное графоориентированное хранилище данных с массивно-параллельной...

11Фев
2023

Как KRaft влияет на скорость работы и хранение данных в Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

KRaft Zookeeper Kafka , Apache Kafka KRaft vs Zookeeper обновление кластера администрирование примеры курсы обучение, администрирование кластера Kafka примеры курсы обучение, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, Apache Kafka для дата-инженеров, Apache Kafka для администраторов и инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Недавно мы писали об изменении статуса и улучшении протокола KRaft в Apache Kafka 3.3. Сегодня погрузимся в эту тему чуть глубже и рассмотрим, как отказ от Zookeeper влияет на количество разделов и возможность одного и того же кластера Kafka с одним набором топиков обслуживать разные типы приложений в различных бизнес-сценариях....

01Фев
2023

Apache Kafka 3.3.2: краткий обзор январского релиза 2023

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka 3.3.2 обновление кластера администрирование примеры курсы обучение, администрирование кластера Kafka примеры курсы обучение, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, Apache Kafka для дата-инженеров, Apache Kafka для администраторов и инженеров данных, Школа Больших Данных Учебный центр Коммерсант

23 января 2023 года вышел очередной релиз самой популярной платформы потоковой передачи событий. Разбираемся с новинками Apache Kafka 3.3.2: готовность протокола KRaft, новый API для метрик, разделитель по умолчанию для записей без ключа, исправления и улучшения, важные для дата-инженера и администратора кластера. Apache Kafka 3.3.2: главные новинки и изменения Минорный...

26Янв
2023

Управление хранением данных в Apache Kafka: 5 главных конфигураций

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka архитектура и принципы работы примеры курсы обучение, администрирование кластера Kafka примеры курсы обучение, обучение Kafka, курсы Apache Kafka, Kafka администратор кластера курсы, Apache Kafka для дата-инженеров, Apache Kafka для администраторов и инженеров данных, Школа Больших Данных Учебный центр Коммерсант

Политики хранения, сжатия и очистки данных в топиках Apache Kafka: какие конфигурации нужно настроить, чтобы работать с файлами распределенных логов наиболее эффективно. Ликбез для администратора кластера Kafka и дата-инженера. Хранение данных в Apache Kafka Мы уже писали, что топик в Apache Kafka представляет собой не физическое, а логическое хранение данных....

19Янв
2023

Автомасштабирование приложений-потребителей из Apache Kafka на Kubernetes

Автор Анна Вичуговав категории Kafka, Блог

Kafka Kubernetes автомасштабирование, автоматическое вертикальное и горизонтальное масштабирование приложений-потребителей Apache Kafka на Kubernetes, DevOps Big Data прмиеры курсы обучение, администрирование кластера Apache Kafka инженер данных, Школа Больших Данных Учебный центр Коммерсант

В этой статье рассмотрим настройку инфраструктуры Kubernetes для потоковой платформы комплексных мобильных приложений на основе Apache Kafka. Что поможет добиться оптимальной масштабируемости приложений-потребителей и высокой доступности всей Big Data системы. Проблемы масштабирования платформы Grab из приложений-потребителей Apache Kafka Grab считается ведущей платформой суперприложений в 8 странах Юго-Восточной Азии, которая предоставляет...

11Янв
2023

Профессиональная вендор-независимая сертификация по продуктам Big Data в 2023 году

Автор Анна Вичуговав категории Блог

сертификация ИТ-специалистов, международный сертификат ИТ, Apache Kafka Hadoop Greenplum Spark сертификация обучение администратор разработчик дата-инженер примеры курсы, сертификация по большим данным, профессиональный сертификат Big Data Россия РФ Hadoop Kafka Greenplum Spark обучение дата-инженеров администраторов разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Риски и возможности отечественного рынка труда с точки зрения профессиональной сертификации по технологиям больших данных. Как и зачем Школа Больших Данных разрабатывает профессиональную вендор-независимую сертификацию по продуктам и технологиям Big Data для еще лучшей подготовки и оценки ИТ-специалистов на российском рынке, опустевшем после ухода западных вендоров. Как изменился рынок профессиональных...

10Янв
2023

Flink + Kafka: Confluent купил Immerok

Автор Анна Вичуговав категории Flink, Kafka, Блог

Confluent Cloud Immerok Kafka Flink 2023, Apache Kafka Confluent Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink Kafka, обучение дата-инженеров и разработчиков Kafka Flink курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Зачем корпорации Confluent, которая продвигает Apache Kafka, понадобился Flink-стартап, чего ожидать от очередного слияния поглощения крупным игроком более мелкого предприятия, и какую пользу это принесет экосистеме потоковой передачи событий. Что Immerok и зачем это Confluent Год только начался, а в мире Big Data уже появились интересные новости. 6 января в...

09Янв
2023

События, сообщения, микросервисы и Apache Kafka: архитектурный холивар

Автор Анна Вичуговав категории Kafka, Блог

архитектура приложений распределенные микросервисы Kafka примеры курсы обучение, архитектура данных дата-инженер примеры курсы обучение, курсы Apache Kafka интеграция, курсы по Кафка, обучение Кафка, курсы Kafka Connect, курсы KSQL, Kafka Connect и KSQL, обучение Kafka Connect, обучение KSQL, обучение Big Data для разработчиков, Kafka Streams курсы, Apache Kafka для разработчиков и архитекторов обучение курсы, учебный центр Коммерсант Школа Больших Данных, курсы Big Data в Москве

Хотя Apache Kafka часто используется в качестве шины обмена данными в микросервисной архитектуре, о чем мы писали здесь, не стоит воспринимать эту платформу как хранилище событий. В чем разница между событием и сообщением, а также другие тонкости построения микросервисной архитектуры, управляемой событиями. События vs сообщения Событие — это сообщение программной...

08Янв
2023

СУБД вместо очереди сообщений: опыт команды Dagster Cloud

Автор Анна Вичуговав категории Kafka, NoSql, Блог

PostgreSQL Big Data Примеры курсы обучение, архитектурные паттерны Big Data, архитектура данных дата-инженер примеры курсы обучение, курсы Apache Kafka интеграция, курсы по Кафка, обучение Кафка, курсы Kafka Connect, курсы KSQL, Kafka Connect и KSQL, обучение Kafka Connect, обучение KSQL, обучение Big Data для разработчиков, Kafka Streams курсы, Apache Kafka для разработчиков и архитекторов обучение курсы, учебный центр Коммерсант Школа Больших Данных, курсы Big Data в Москве

Использование СУБД вместо очереди сообщений считается антипаттерном, однако, команда разработки облачной системы организации конвейеров обработки данных Dagster Cloud выбрала PostgreSQL вместо Apache Kafka для регистрации событий. Разбираемся, почему плохой шаблон принес хорошие результаты и что нужно учитывать при выборе технологии. Почему не стоит использовать СУБД вместо очереди сообщений Dagster Cloud...

31Дек
2022

CDC с Kestra вместо Debezium с Kafka Connect

Автор Анна Вичуговав категории AirFlow, Kafka, Блог

инженер данных примеры курсы обучение Debezium CDC Kestra, курсы Apache Kafka Интеграция, курсы по Кафка, обучение Кафка, курсы Kafka Connect, курсы KSQL, Kafka Connect и KSQL, обучение Kafka Connect, обучение KSQL, обучение Big Data для разработчиков, Kafka Streams курсы, Apache Kafka Для разработчиков обучение курсы, учебный центр Коммерсант Школа Больших Данных, курсы Big Data в Москве

Как реализовать CDC-сценарий, используя платформу оркестрации Kestra вместо Debezium с Kafka Connect для планирования и управления конвейером обработки данных. За счет чего Kestra работает эффективнее Debezium с коннекторами Kafka Connect и при чем здесь Apache AirFlow с NiFi. Что не так с реализацией CDC на Debezium с Kafka Connect Мы...

24Дек
2022

Группы потребителей в Apache Kafka и микросервисы

Автор Анна Вичуговав категории Kafka, Блог

потребители и продюсеры Kafka группы потребителей, дата-инженер администратор кластера разработчик Apache Kafka конфигурации примеры курсы обучение, обучение Apache Kafka, курсы Apache Kafka, Apache Kafka Streams курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Как количество разделов топика Apache Kafka влияет на потребителей и продюсеров, зачем нужны группы потребителей и как этот механизм реализует идею микросервисной архитектуры Big Data систем. Как работают группы потребителей в Apache Kafka Будучи распределенной платформой потоковой передачи событий, Apache Kafka выполняет роль средства обмена сообщениями между приложениями-продюсерами и приложениями-потребителями...

14Дек
2022

Контракты данных и еще 9 лучших практик применения Apache Kafka для ИТ-архитектора

Автор Анна Вичуговав категории Kafka, Блог

ИТ-архитектура Apache Kafka для дата-инженеров, микросервисы и конвейеры обработки данных Kafka примеры курсы обучение, лучшие практики Apache Kakfa для архитектора и дата-инженера, Школа Больших Данных Учебный центр Коммерсант

Как использовать мощь Apache Kafka в ИТ-архитектуре корпоративных приложений и интеграции информационных систем: краткий ликбез по ключевым принципам работы этой платформы потоковой передачи событий и важность дата-контрактов для инженера данных, разработчика и архитектора. 9 лучших практик использования Apache Kafka в архитектуре приложений Чтобы успешно применять Apache Kafka в качестве основной...

10Дек
2022

Как клиенты Apache Kafka общаются с брокерами: протоколы и интерфейсы

Автор Анна Вичуговав категории Kafka, Блог

разработчик Apache Kafka конфигурации примеры курсы обучение, обучение Apache Kafka, курсы Apache Kafka, Apache Kafka Streams курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Чтобы сделать наши курсы по Apache Kafka еще более полезными, сегодня рассмотрим, какие интерфейсы и протоколы для связи клиента с брокером использует эта платформа потоковой передачи событий. А также рассмотрим, что обеспечивает двунаправленную совместимость API. Протоколы и интерфейсы Apache Kafka для общения клиентов с брокерами Apache Kafka использует бинарный протокол...

07Дек
2022

Apache NiFi 1.19: что нового?

Автор Анна Вичуговав категории NiFi, Блог

Apache NiFi администрирование дата-инженерия новый релиз примеры курсы обучение, Apache NiFi курсы примеры обучение, курсы дата-инженеров, обучение инженеров данных, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы писали про Apache NiFi 1.18. А 28 ноября опубликован новый выпуск - 1.19.0 и спустя немного времени первый баг-фикс к нему. Разбираемся с новинками свежего релиза самого популярного потокового ETL-маршрутизатора: новые процессоры, исправления ошибок и улучшения, о которых следует знать дата-инженеру и администратору кластера. Главные новости Apache NiFi...