Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

22Июл
2022

Экономия места в Apache Kafka с форматом Parquet

Автор Анна Вичуговав категории Kafka, Блог

Kafka курсы примеры обучение, обучение большим данным, Kafka форматы данных примеры курсы обучение, Apache Kafka Parquet для дата-инженеров примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы сравнивали разные форматы сериализации данных, поддерживаемые Apache Kafka. Однако, AVRO и JSON не могут похвастаться таким высоким коэффициентом сжатия, как колоночный бинарный формат Parquet. Читайте далее, как хранить больше потоковых данных на тех же ресурсах с помощью движка Deephaven и других open-source решений. Apache Kafka и Parquet Apache...

15Июл
2022

Apache Kafka как решение проблемы параллелизма в микросервисах, управляемых событиями

Автор Анна Вичуговав категории Kafka, Блог

архитектура микросервисов Apache Kafka примеры курсы обучение, проектирование распределенных систем Apache Kafka Big Data примеры курсы обучение, обучение архитекторов Big Data, курсы Apache Kafka , обучение Apache Kafka примеры, инженерия данных, обучение дата-инженеров, инженер данных курсы, Школа Больших Данных Учебный центр Коммерсант

Хотя распределенные системы с микросервисной архитектурой дают множество преимуществ, процесс их проектирования достаточно сложен. В частности, нужно учитывать возможность возникновения неопределенности параллелизма или состояния гонки, и заранее предусмотреть способы решения этих проблем. Одним из них является Apache Kafka, которая гарантирует упорядоченность событий. Рассмотрим на практическом примере, как это работает. Что...

11Июл
2022

Технологии и инструменты преобразования речи в текст

Автор Анна Вичуговав категории Machine Learning, Блог

MLOps ML Распознавание речи, машинное обучение для дата-инженеры, курсы Machine Learning Kafka Spark AirFlow, Школа Больших Данных Учебный Центр Коммерсант

Чтобы добавить в наши курсы для дата-инженеров и специалистов по Machine Learning еще больше практических примеров, сегодня рассмотрим, как построить ETL-конвейер для преобразования речи в текст с использованием Apache Kafka, Airflow и Spark. А также познакомимся с популярными фреймворками и готовыми сервисами распознавания речи. ETL-конвейер распознавания речи: используемые технологии Предположим,...

08Июл
2022

Как обеспечить высокое качество потоковых данных с реестром схем Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

Kafka курсы примеры обучение, обучение большим данным, Kafka реестр схем примеры курсы обучение, Apache Kafka для дата-инженеров примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

С какими проблемами качества данных сталкивается дата-инженер при работе с Apache Kafka и как реестр схем поможет их решить. Чем формат сериализации Apache AVRO отличается от JSON и Protobuf, как использовать Schema Registry и обеспечить совместимость данных: краткое пошаговое руководство для дата-инженера. Качество данных и реестр схем Apache Kafka Низкое...

07Июл
2022

Мониторинг микросервисов с Apache Kafka, Jaeger и OpenTelemetry

Автор Анна Вичуговав категории Kafka, Блог, Цифровая трансформация

архитектура данных примеры курсы обучение, мониторинг и трассировка распределенных систем DevOps Big Data примеры курсы обучение, обучение архитекторов Big Data, инженерия данных, обучение дата-инженеров, инженер данных курсы, Школа Больших Данных Учебный центр Коммерсант

В этой статье для обучения дата-инженеров и архитекторов распределенных систем рассмотрим, что такое наблюдаемость, как ее измерить и при чем здесь стандарт OpenTelemetry. А в качестве примера разберем, как французский маркетплейс Cdiscount управляет почти 1000 микросервисов в кластере Kubernetes с Apache Kafka, Jaeger, Elasticsearch и OpenTelemetry. Наблюдаемость распределенной системы: стандарт...

28Июн
2022

Управление купонами на скидки в маркетплейсе Trendyol с Apache Kafka и Couchbase

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka примеры курсы обучение, обучение дата-инженер Kafka, курсы Apache Kafka для разработчиков и дата-инженеров, Big Data Kafka маркетинг e-commerce кейсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим пример программы лояльности турецкого интернет-магазина Trendyol, где Apache Kafka и документо-ориентированная NoSQL-СУБД Couchbase используются для генерации купонов на скидки. Почему при большом объеме данных случаются проблемы тайм-аутов в Couchbase, как их решить и при чем здесь коннекторы к Apache Kafka. Архитектура системы управления купонами Trendyol – это популярный...

26Июн
2022

Мониторинг задержки в приложениях Apache Flink

Автор Анна Вичуговав категории Flink, Блог

мониторинг Flink приложений, метрики приложений Apache Flink, Apache Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Недавно мы говорили про непрерывный мониторинг Flink-приложений и подробно рассмотрели метрики состояния и пропускной способности. В продолжение этой важной для разработчиков и дата-инженеров темы, сегодня рассмотрим, как идентифицировать временную задержку обработки данных. Пользовательские метрики задержки в потоковых приложениях Для потоковых приложений, которые обрабатывают события в режиме, близком к реальному времени,...

19Июн
2022

Управляемые повторы отправки сообщений из Apache Kafka c фреймворком Sping

Автор Анна Вичуговав категории Kafka, Блог

Kafka Streams примеры курсы обучение, Kafka Streams Spring, администрирование Kafka, Kafka администратор примеры курсы обучение, Apache Kafka для разработчика и дата-инженера примеры курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Специально для обучения разработчиков распределенных приложений и дата-инженеров, рассмотрим практический пример использования возможностей фреймворка Spring для управления повторными попытками отправки сообщений потребителям из топика Apache Kafka. Повторные попытки отправки сообщений и Spring для Apache Kafka Довольно часто Kafka-приложения требуют высокой надежности обработки сообщений. Например, в финтех- или медтех-проектах, а также...

18Июн
2022

Потоки и пакеты: сходства, отличия и примеры применения

Автор Анна Вичуговав категории Блог

курсы Kafka Spark Flink, Архитектура данных Лямбда Каппа курсы примеры обучение, архитектор Big Data курсы примеры обучение, потоковая пакетная парадигма обработки данных примеры кейсы курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим 2 основные категории технологий обработки данных: пакетную и потоковую. Что общего между batch и stream processing, где они применяются, какими технологиями поддерживаются, можно ли их использовать вместе и как это сделать: ликбез по архитектуре больших данных. Потоковая и пакетная обработка: краткий обзор с примерами Обработки данных в режиме...

12Июн
2022

Стойки кластера и отказоустойчивость приложений Kafka Streams с релизом 3.2

Автор Анна Вичуговав категории Kafka, Блог

Kafka Streams примеры курсы обучение, Kafka Streams отказоустойчивость, Kafka Streams rack awareness, Kafka обновление 3.2.0, администрирование кластера Kafka, Kafka кластер администратор примеры курсы обучение, Apache Kafka для разработчика и дата-инженера примеры курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

В свежем релизе Apache Kafka 3.2.0, который вышел 17 мая 2022 года, о чем мы писали здесь, есть много интересных улучшений для повышения устойчивости потоковых приложений. Почему важна новая фича назначения резервных задач с учетом стоек и как разработчик с дата-инженером могут использовать в помощь администратору кластера: разбор rack awareness...

03Июн
2022

Apache Kafka 3.2: что нового?

Автор Анна Вичуговав категории Kafka, Блог

Kafka обновление 3.2.0, администрирование кластера Kafka, Kafka кластер администратор примеры курсы обучение, Apache Kafka для разработчика и дата-инженера примеры курсы обучение, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

17 мая 2022 года вышел очередной релиз главной платформы потоковой передачи событий. Смотрим самые важные обновления свежей Apache Kafka 3.2.0 с точки зрения разработчика распределенных приложений, дата-инженера и администратора кластера. ТОП-5 новинок свежей версии Apache Kafka для администратора кластера Apache Kafka 3.2.0 включает 2 новые фичи, 36 улучшений и 65...

29Май
2022

Табличное хранилище Apache Flink

Автор Анна Вичуговав категории Flink, Блог

Apache Flink для разработчиков и дата-инженеров примеры курсы обучение, потоковая обработка данных Flink, обучение дата-инженеров и разработчиков курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Что такое табличное хранилище Apache Flink, зачем это нужно и почему оно пока не рекомендуется для применения в реальных проектах. Краткий обзор Apache Flink Table Store 0.1.0 для дата-инженеров и разработчиков распределенных приложений. Что такое Flink Table Store и зачем это нужно Уже более полугода, с релиза 1.14, выпущенного в...

26Май
2022

Как связать Apache Kafka с Hive: разбор интеграционного коннектора

Автор Анна Вичуговав категории Hive, Kafka, Блог

курсы Hive, курсы Kafka, обучение дата-инженер, курсы дата-инженер, SQL-on-Hadoop примеры курсы обучение, Kafka Streams курсы примеры, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим, кому и зачем нужно связывать Apache Hive с Kafka, каким образом реализуется эта интеграция, как получить доступ к данным из платформы потоковой передачи событий средствами SQL-on-Hadoop, при чем здесь режимы Kerberos и механизмы безопасности Ranger. Зачем нужна интеграция Apache Hive с Kafka Необходимость связать Apache Hive с Kafka...

23Май
2022

Как быстро и безопасно удалять брокеры из кластера Kafka: решение от Confluent

Автор Анна Вичуговав категории Kafka, Блог

администратор кластера Kafka курсы примеры обучение, администрирование кластера Kafka курсы примеры обучение, Kafka кластер администратор курсы примеры обучение, балансировка нагрузки в кластере Kafka, Kafka Confluent примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим важную для обучения администраторов кластера Apache Kafka тему про удаление брокеров. Что происходит, когда администратор удаляет брокер Kafka из кластера, какие сложности при этом могут возникнуть и как с ними справляется решение на базе платформы Confluent. Как вручную удалить брокер Kafka из кластера: краткий guide администратора На первый...

19Май
2022

Анализ данных Youtube в реальном времени с Apache NiFi, Kafka и Spark Streaming

Автор Анна Вичуговав категории Kafka, NiFi, Spark, Блог

NiFi для инженера данных примеры курсы обучение, аналитический конвейер NiFi Kafka Spark Streaming, обучение большим данным, курсы дата-инженеров, обучение инженер данных, Школа Больших Данных Учебный Центр Коммерсант

В этой статье для дата-инженеров рассмотрим пример конвейера анализа потокового видео с Youtube-каналов на Kafka, Spark Streaming и Elasticsearch c Kibana, связанных через процессоры Apache NiFi. Постановка задачи: ETL-конвейер анализа потоковых данных с Youtube Потоковые данные непрерывно генерируются тысячами источников, которые отправляют записи одновременно и в небольших размерах (порядка килобайт)....

16Май
2022

Apache Kafka в Walmart для масштабируемого пополнения запасов в реальном времени

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, Kafka ритейл примеры применения case study use cases, курсы Apache Kafka, Apache Kafka Streams курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Проблема своевременного пополнения товарных запасов актуальна для любого ритейлера. Разбираемся, как торговый гигант США Walmart построил свою платформу планирования и пополнения продукции в реальном времени на базе Apache Kafka: ключевые требования к системе, архитектура и принципы работы, настройка конфигураций продюсеров и потребителей. Постановка задачи: пополнение товарного запаса в реальном времени...

14Май
2022

Feature Store на Apache HBase с Phoenix, RonDB и Kafka: кейс Dream11

Автор Анна Вичуговав категории Machine Learning, Блог

MLOps Feature Store, MLOps мониторинг ML-моделей в production, обучение MLOps , курсы MLOps , обучение Machine Learning, Machine Learning курсы примеры, Machine Learning MLOps , машинное обучение примеры курсы, обучение большим данным, Школа Больших Данных Учебный Центр Коммерсант

Современные ML-системы представляют собой сложные комплексные платформы из множества компонентов, одним из которых является хранилище фичей для моделей машинного обучения. Индийская gamedev-компания Dream11 делится своим опытом, как построить такое Feature Store на базе Apache HBase с Phoenix, а также RonDB и Kafka. Что такое хранилище фичей и зачем это Dream11...

11Май
2022

3 режима вывода в Apache Spark Structured Streaming

Автор Анна Вичуговав категории Spark, Блог

Spark Structured Streaming примеры курсы обучение output modes отличия сходства, режимы вывода в Apache Spark Structured Streaming, обучение дата-инженеров Spark, курсы инженер данных Spark, инженерия данных Spark, обучение Apache Spark курсы примеры, анализ данных с Apache Spark, разработка Apache Spark, Школа Больших Данных Учебный Центр Коммерсант

Какие бывают режимы вывода в структурированной потоковой передаче Spark, чем они отличаются и как их использовать на практике: разбираемся на практическом примере. Краткий ликбез по output modes в Apache Spark Structured Streaming для обучения дата-инженеров и разработчиков распределенных приложений. Что такое режимы вывода в Apache Spark Structured Streaming Apache Spark...

08Май
2022

Больше или быстрее: ищем компромисс пропускной способности Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

обучение Apache Kafka, курсы Apache Kafka, Apache Kafka Streams курсы примеры обучение, потоковая и пакетная обработка данных примеры, обучение большим данным, Apache Kafka для дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Пропускная способность информационной системы на базе Apache Kafka говорит о том, сколько данных могут быть обработаны за определенный период времени. Несмотря на потоковую передачу событий, здесь работает классический закон обратной зависимости скорости обработки данных от их объема. Разбираемся, как найти баланс между производительностью и задержкой. Еще раз о пропускной способности...

30Апр
2022

Отказы в Kafka-приложениях и FMECA-анализ: определить и устранить сбои

Автор Анна Вичуговав категории Kafka, Блог

проектирование и отладка Kafka приложений примеры курсы обучение, Apache Kafka для разработчиков и дата-инженеров примеры курсы обучение, FMECA для Kafka-приложений, Kafka Streams курсы примеры обучение, обучение большим данным, Школа Больших Данных Учебный центр Коммерсант

Хотя Apache Kafka является надежной платформой потоковой обработки событий, что особенно важно для распределенных приложений, отказы случаются и в ней. Сегодня разберем важную для обучения разработчиков и дата-инженеров тему про идентификацию и обработку отказов в Kafka-приложениях с помощью простого, но эффективного метода теории надежности. Что такое FMECA-анализ, как его проводить...