Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

17Ноя
2020

Как устроен конвейер аналитики больших данных на Apache Kafka и Druid в Netflix

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы по Kafka, обучение Kafka, Big Data, Большие данные, предиктивная аналитика, цифровая экономика, Druid, Kafka, обработка данных, архитектура, SQL

В этой статье разберем, что такое прикладная аналитика больших данных на примере практического использования Apache Kafka и Druid в Netflix для обработки и визуализации метрик пользовательского поведения. Читайте далее, зачем самой популярной стриминговой компании отслеживать показатели клиентских устройств и как это реализуется с помощью Apache Druid, Kafka и других технологий...

16Ноя
2020

Зачем вам UNION вместо JOIN в Apache Druid и семплирование больших данных в Spark Streaming: пример потоковой аналитики Big Data

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

курсы дата инженеров, обучение инженеров Big Data, обработка данных, большие данные, Big Data, Kafka, архитектура, Spark, Druid, предиктивная аналитика, SQL

Недавно мы рассказывали про систему онлайн-аналитики Big Data на базе Apache Kafka, Spark Streaming и Druid для площадки рекламных ссылок Outbrain, а затем на этом же кейсе рассматривали, зачем нужен Graceful shutdown в потоковой обработке больших данных. Сегодня в рамках этого примера разберем, как снизить нагрузку при потоковой передаче множества...

13Ноя
2020

Почему вам нужно обучение разработке в Apache Kafka: 4 причины выбрать курсы от Школы Больших Данных

Автор Анна Вичуговав категории Kafka, Блог

обучение Кафка, курсы по Кафка, обучение Apache Kafka, курсы Apache Kafka, Apache Kafka для разработчиков, разработка Apache Kafka, Kafka Streams и Kafka Connect курс

Сегодня мы расскажем про наши новые курсы по Apache Kafka для разработчиков Big Data. Читайте далее, зачем мы объединили тренинг по Kafka Streams и обучение интеграции этой платформы потоковой обработки событий с другими системами. Также вы узнаете, насколько новый комплексный курс по Apache Kafka полезен программистам распределенных приложений и выгоден...

10Ноя
2020

Что такое Graceful shutdown в Spark Streaming: основы Big Data для начинающих

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

курсы по Apache Spark Apache Spark обучение, курсы по Kafka, обучение Kafka, обработка данных, большие данные, Big Data, Kafka, архитектура, Spark, Druid, предиктивная аналитика, потоковая обработка больших данных кейсы, Graceful shutdown Apache Spark Streaming

Продолжая разбирать, как работает аналитика больших данных на практических примерах, сегодня мы рассмотрим, что такое Graceful shutdown в Apache Spark Streaming. Читайте далее, как устроен этот механизм «плавного» завершения Спарк-заданий и чем он полезен при потоковой обработке больших данных в рамках непрерывных конвейеров на базе Apache Kafka и других технологий...

09Ноя
2020

Веб-реклама, ретаргетинг и проблемы потоковой аналитики больших данных с Apache Kafka, Spark Streaming и Druid: кейс платформы Outbrain

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

Современная аналитика больших данных ориентируется на обработку Big Data в реальном времени. Такие вычисления «на лету» позволяют в режиме онлайн узнавать о критически важных производственных показателях и оперативно понимать клиентские потребности. Это существенно ускоряет и автоматизирует цикл принятия управленческих решений в соответствии с требованиями сегодняшнего бизнеса. Обычно для реализации архитектуры...

30Окт
2020

Apache Kafka, микросервисы и проблема удаления данных: 5 практических примеров

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы по Kafka, обучение Apache Kafka с примерами, обработка данных, большие данные, Big Data, Kafka, администрирование, архитектура, Agile, DevOps

Чтобы сделать наши курсы по Apache Kafka для разработчиков Big Data систем еще более интересными, а обучение – запоминающимся, сегодня мы рассмотрим еще несколько примеров реализации микросервисной архитектуры на этой стриминговой платформе. А также поговорим про проблемы удаления данных в этой архитектурной модели, разобрав кейс компании Twitter по построению корпоративного...

28Окт
2020

Конвейер Big Data для Machine Learning на Apache Kafka: разбираем систему речевой аналитики

Автор Анна Вичуговав категории Kafka, Machine Learning, Use Cases, Блог, Распознавание Речи

обработка данных, большие данные, Big Data, Kafka, машинное обучение, Machine Learning, искусственный интеллект, NLP, курсы по Kafka, Apache Kafka обучение

В этой статье мы рассмотрим комплексный конвейер (pipeline) обработки больших данных с помощью алгоритмов машинного обучения (Machine Learning) для системы речевого анализа Callinter от китайской компании Fano Labs. Apache Kafka играет ключевую роль в этом аналитическом конвейере, ежедневно обеспечивая бесперебойную стабильность и высокую производительность интеллектуальной обработки нескольких тысяч часов звонков....

23Окт
2020

Все грани Apache NiFi для построения ETL-pipeline’ов и обработки потоковых данных с Kafka и Spark

Автор Анна Вичуговав категории Kafka, Machine Learning, NiFi, Spark, Use Cases, Блог

Spark, обработка данных, большие данные, Big Data, NiFi, ETL, Kafka, машинное обучение, Machine Learning, курсы по Apache NiFi, обучение инженеров больших данных, Big Data Engineer обучение

Продолжая разговор про инженерию больших данных, сегодня рассмотрим, как построить ETL-pipeline на открытых технологиях Big Data. Читайте далее про получение, агрегацию, фильтрацию, маршрутизацию и обработку потоковых данных с помощью Apache NiFi, Kafka и Spark, преобразование JSON, а также обогащение и сохранение данных в Hive, HDFS и Amazon S3. Пример потокового...

15Окт
2020

Kafka Connect для мониторинга событий и метрик: настраиваем JSON для интеграции с New Relic

Автор Анна Вичуговав категории Kafka, Блог

Big Data, Большие данные, обработка данных, Kafka, архитектура, администрирование

Мы уже писали, что такое Kafka Connect и как этот инструмент обеспечивает потоковую передачу данных между Apache Kafka и другими системами на примере интеграции с Elasticsearch. Сегодня рассмотрим новый коннектор, который позволяет загружать данные из топиков Apache Kafka в платформу удаленного мониторинга работоспособности мобильных и веб-приложений New Relic через гибкий REST API....

14Окт
2020

Особенности JOIN-операций в Apache Kafka Streams на примере Twitter

Автор Анна Вичуговав категории Kafka, Machine Learning, Use Cases, Блог

Big Data, Большие данные, обработка данных, Kafka, архитектура, Machine Learning, машинное обучение, KSQL

Продолжая разговор про практическое применение Apache Kafka на примере организации рекомендательной системы Twitter, сегодня мы рассмотрим, как с помощью Kafka Streams был разработан конвейер сбора и агрегации данных для машинного обучения (Machine Learning). Читайте в нашей статье про особенности объединения больших данных через LeftJoin и InnerJoin в Apache Kafka Streams. Архитектура приложения...