Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

21Янв
2021

Что такое Apache Pulsar: новая Kafka или улучшенный RabbitMQ для потоков Big Data

Автор Анна Вичуговав категории Kafka, Блог

курсы по Apache Kafka, Kafka Streams для разработчиков, обучение Kafka Streams, обработка данных, большие данные, Big Data, архитектура, Kafka, Apache Pulsar, RabbitMQ

Продвигая наши обновленные курсы по Kafka, сегодня рассмотрим, почему в последнее время эту Big Data платформу потоковой обработки событий стали активно сравнивать с Apache Pulsar. Читайте далее, как устроен этот молодой, но интересный фреймворк потоковой обработки больших данных, чем он отличается от Kafka и RabbitMQ, что между ними общего и...

20Янв
2021

Пробуем приложения Apache Kafka Streams в Kubernetes: probe-механизм и проблемы stateful

Автор Анна Вичуговав категории Kafka, Блог

курсы по Apache Kafka, Kafka Streams для разработчиков, обучение Kafka Streams, обработка данных, большие данные, Big Data, архитектура, Kafka, Kubernetes, DevOps

Вчера мы говорили про сложности развертывания множества stateful-приложений Apache Kafka Streams в кластере Kubernetes и роль контроллера StatefulSet, который поддерживает состояние реплицированных задач за пределами жизненного цикла отдельных подов. В продолжение этой темы, сегодня рассмотрим механизм проб, которые позволяют определить состояние распределенного приложения, развернутого на платформе контейнерной виртуализации. В качестве...

19Янв
2021

Как ваше состояние: запуск stateful-приложений Apache Kafka Streams в Kubernetes

Автор Анна Вичуговав категории Kafka, Блог

Сегодня рассмотрим особенности запуска приложений Apache Kafka Streams для потоковой обработки больших данных с отслеживанием состояния в кластере Kubernetes. Читайте далее, в чем проблема управления stateful-приложениями Kafka Streams в Kubernetes и как ее решает контроллер StatefulSet. Что обеспечивает хранение состояний в Apache Kafka Streams Напомним, Kafka Streams – это легковесная...

15Янв
2021

CDC-репликация Big Data в реальном времени с Apache Kafka и Debezium в Confluent Cloud

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

обработка данных, большие данные, Big Data, архитектура, Kafka, SQL

В этой статье поговорим про интеграцию данных с помощью CDC-подхода и репликацию SQL-таблиц из корпоративной СУБД в несколько разных удаленных хранилищ в реальном времени с применением Apache Kafka и Debezium, развернутых в Kafka Connect и Confluent Cloud. Постановка задачи: CDC с Big Data в реальном времени Рассмотрим кейс, который часто...

14Янв
2021

А вы любите Kafka? Открытый тест из 10 вопросов на знание популярной Big Data платформы

Автор Анна Вичуговав категории Kafka, Тесты

обучение Apache Kafka, курсы Apache Kafka, тест по Apache Kafka, бесплатный открытый тест по Apache Kafka, вопросы по Apache Kafka, обучение большим данным, интерактивный тест по Big data Для начинающих, основы Apache Kafka вопросы для проверки знаний

Чтобы сделать ваше самостоятельное обучение Apache Kafka и прочим технологиям Big Data по статьям нашего блога еще более интересным, сегодня мы предлагаем вам открытый интерактивный тест по этой платформе потоковой обработки событий. Ответьте на 10 простых вопросов и узнайте, насколько хорошо вы знакомы с особенностями администрирования и эксплуатации этого популярного...

05Янв
2021

Непростая аналитика больших данных в реальном времени: 3 способа перезапуска заданий Spark Structured Streaming по метке времени Apache Kafka

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

курсы Apache Kafka, Обучение Kafka, курсы Apache Spark Strucrured Streaming, обучениеApache Kafka, Обучение Apache Kafka и Spark Strucrured Streaming, курсы по большим данным, обучение Big Data, аналитика больших данных в реальном времени обучение на примерах, Big Data, Kafka, архитектура, Большие данные, обработка данных, Spark,

Совместное использование Apache Kafka и Spark очень часто встречается в потоковой аналитике больших данных, например, в прогнозировании пользовательского поведения, о чем мы рассказывали вчера. Однако, временные метки (timestamp) в приложении Spark Structured Streaming могут отличаться от времени события в топике Kafka. Читайте далее, почему это случается и какие подходы к...

04Янв
2021

Как подготовить датасет к Machine Learning с PySpark и построить систему потоковой аналитики больших данных на Apache Kafka и ELK: пример прогнозирования CTR

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

курсы по большим данным и машинному обучению, обучение Big Data и Machine Learning, аналитика больших данных в реальном времени обучение на примерах, Big Data, Kafka, архитектура, Большие данные, маркетинг, обработка данных, предиктивная аналитика, реклама, машинное обучение, Machine Learning, Spark, Python, PySpark, Elasticsearch

В продолжение разговора о применении технологий Big Data и Machine Learning в рекламе и маркетинге, сегодня рассмотрим архитектуру системы прогнозирования конверсии рекламных объявлений. Читайте далее, как организовать предиктивную аналитику больших данных на Apache Kafka и компонентах ELK-стека (Elasticsearch, Logstash, Kibana), почему так важно тщательно подготовить данные к машинному обучению, какие...

19Дек
2020

10 вопросов на знание основ Big Data: открытый интерактивный тест для начинающих

Автор Анна Вичуговав категории AirFlow, Hive, Kafka, Machine Learning, Spark, Use Cases, Блог, Тесты

курсы по большим данным, обучение Data Science, обучение Big Data, Big Data и Machine Learning для начинающих, основы Big Data, основы больших данных

Чтобы сделать самостоятельное обучение технологиям Big Data по статьям нашего блога еще более интересным, сегодня мы предлагаем вам простой интерактивный тест по основам больших данных, включая администрирование кластеров, инженерию конвейеров и архитектуру, а также Data Science и Machine Learning. Тест по основам больших данных для новичков В продолжение темы,...

16Дек
2020

Потоковая обработка событий в Machine Learning и Big Data: основы StreamSQL для начинающих

Автор Анна Вичуговав категории Kafka, Machine Learning, Блог

курсы по Apache Kafka, Обучение Apache Kafka, промышленный ML, машинное обучение курсы, курсы Big Data для Data Science, Feature Store, StreamSQL, курсы по Spark, обучение Apache Spark, основы машинного обучения и больших данных, инженерия машинного обучения, MlOps

Вчера мы говорили про промышленный Machine Learning в больших данных и рассматривали проблемы микросервисной архитектуры в системах машинного обучения. Продолжая разбирать, как Feature Store повышает эффективность MLOps-процессов, сокращая цикл разработки согласно Agile-идеям, сегодня мы приготовили для вас краткий обзор хранилища признаков StreamSQL. Читайте далее, что такое StreamSQL, как оно устроено,...

14Дек
2020

Зачем вам Feature Store или что не так с микросервисами в ML-системах

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

курсы по Apache Kafka, обучение Kafka, курсы Spark, обучение Apache Spark, Big Data, Большие данные, обработка данных, архитектура, Spark, SQL, Machine Learning, машинное обучение, MLOps, Data Lake, Kafka, Agile, микросервисная архитектура систем машинного обучения, микросервисы и ML

Сегодня рассмотрим, когда микросервисные архитектуры не подходят для систем машинного обучения и какие технологии Big Data следует использовать в этом случае. В этой статье мы расскажем, что такое Feature Store, как это хранилище признаков для моделей Machine Learning повышает эффективность MLOps-процессов и сокращает цикл разработки ML-систем, а также при чем...