Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

18Июн
2021

Кейс потоковой аналитики больших данных с Apache Kafka, Spark (Flink) и BI-системами

Автор Анна Вичуговав категории Flink, Greenplum, Kafka, Machine Learning, Spark, Use Cases, Блог

курсы аналитики больших данных, примеры и кесы аналитика Big Data, обучение большим данным, курсы Spark, обучение курс Kafka, обучение курс Greenplum, курсы Flink, Школа Больших Данных Учебный Центр Коммерсант

Сегодня рассмотрим пример построения системы потоковой аналитики больших данных на базе Apache Kafka, Spark, Flink, NoSQL-СУБД, BI-системой Tableau или визуализацией в Kibana. Читайте далее, кому и зачем исследовать Twitter-посты в реальном времени, как это реализовать технически, визуализировать в наглядных BI-дэшбордах для принятия data-driven решений и при чем здесь Kappa-архитектура. Еще...

03Июн
2021

Real-time аналитика больших данных о сетевом трафике с Apache Kafka и Spark

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

курсы Spark, курсы Kafka, обучение Spark, обучение Kafka, конвейер аналитики больших данных, анализ сетевого трафика в реальном времени, NetFlow аналитика, Школа Больших Данных Учебный Центр Коммерсант

Продолжая добавлять в наши практические курсы по Apache Kafka и Spark еще больше интересных примеров, сегодня рассмотрим, как с помощью этих технологий Big Data анализировать метаданные сетевых потоков в реальном времени. В этой статье мы приготовили для вас кейс по потоковой аналитики больших данных о сетевом трафике с помощью Apache...

29Мар
2021

Как сэкономить на AWS со Spark и Kubernetes: спотовые узлы и готовые платформы

Автор Анна Вичуговав категории Spark, Use Cases, Блог

обучение Spark, курсы Spark, курсы дата-инженеров, обучение инженеров Big Data, оптимизация затрат на AWS, Big Data, Большие данные, Spark, облака, архитектура, контейнеризация, Kubernetes, DevOps, предиктивная аналитика, AirFlow, ETL

Продолжая разговор про оптимизацию приложений Apache Spark в Kubernetes, сегодня разберем, как сократить расходы на облачный кластер с помощью спотовых узлов. А в качестве практического примера рассмотрим кейс компании Weather2020, дата-инженеры которой смогли всего за 3 недели развернуть террабайтные ETL-конвейеры в AWS с AirFlow и Spark на Kubernetes без глубокой...

04Фев
2021

Быстрее и безопаснее: потоковая аналитика больших данных для трекинга самолетов

Автор Анна Вичуговав категории Spark, Use Cases, Блог

курсы по Spark, инженерия данных обучение, дата-инженер курсы, Apache Spark для инженеров больших данных и разработчиков обучение, Amazon Web Services Kinesism Big Data, Большие данные, обработка данных, архитектура, Spark, Kafka, SQL, предиктивная аналитика

Чтобы показать, насколько разной бывает аналитика больших данных, сегодня рассмотрим кейс международной компании Spidertracks, которая с помощью технологий Big Data создает ИТ-решения для отслеживания, связи и управления безопасностью воздушных судов. Читайте далее, почему для потоковой обработки событий был выбран Kinesis Analytics for SQL, а не конвейер из Apache Kafka и...

06Янв
2021

Большие данные для малого бизнеса: 3 примера, которые подойдут каждому

Автор Анна Вичуговав категории Use Cases, Блог, Цифровая трансформация

курсы по большим данным, аналитика больших данных обучение, большие данные для чайников, Big Data в малом и среднем бизнесе с примерами, большие данные и машинное обучение в бизнесе

Отвечая на вопрос, что такое большие данные для чайников, сегодня мы рассмотрим 3 практических примера использования технологий Big Data в малом и среднем бизнесе. Никакой Rocket Science, только понятные кейсы, которые актуальны для любой современной компании, даже если она состоит из пары человек: аналитика больших данных и машинное обучение для...

04Янв
2021

Как подготовить датасет к Machine Learning с PySpark и построить систему потоковой аналитики больших данных на Apache Kafka и ELK: пример прогнозирования CTR

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

курсы по большим данным и машинному обучению, обучение Big Data и Machine Learning, аналитика больших данных в реальном времени обучение на примерах, Big Data, Kafka, архитектура, Большие данные, маркетинг, обработка данных, предиктивная аналитика, реклама, машинное обучение, Machine Learning, Spark, Python, PySpark, Elasticsearch

В продолжение разговора о применении технологий Big Data и Machine Learning в рекламе и маркетинге, сегодня рассмотрим архитектуру системы прогнозирования конверсии рекламных объявлений. Читайте далее, как организовать предиктивную аналитику больших данных на Apache Kafka и компонентах ELK-стека (Elasticsearch, Logstash, Kibana), почему так важно тщательно подготовить данные к машинному обучению, какие...

03Янв
2021

Что под капотом ретаргетинга: прогнозирование намерений пользователя с Apache Hadoop и Spark Structured Streaming на сервисах Amazon

Автор Анна Вичуговав категории Hive, Spark, Use Cases, Блог

курсы по большим данным, обучение Big Data, аналитика больших данных в реальном времени, Big Data, Kafka, Spark, архитектура, Большие данные, маркетинг, обработка данных, предиктивная аналитика, реклама, машинное обучение, Machine Learning, SQL, Hive, Hadoop, Amazon Web Services, AWS Kinesis

Мы уже рассказывали о возможностях ретаргетинга и использовании Apache Spark Structured Streaming для реализации этого рекламного подхода на примере Outbrain. Такое применение технологий Big Data сегодня считается довольно распространенным. Чтобы понять, как это работает на практике, рассмотрим кейс маркетинговой ИТ-компании MIQ, которая запускает Spark-приложения на платформе Qubole и сервисах Amazon,...

26Ноя
2020

Как опередить спрос на модные новинки с облачными технологиями Big Data: кейс компании Boden по Apache Kafka и Snowflake

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы по Apache Kafka, Kafka обучение, обучение большим данным, аналитика больших данных, курсы аналитик Big Data, обработка данных, большие данные, Big Data, Kafka, архитектура, предиктивная аналитика, ритейл, цифровая трансформация, цифровизация, SQL, DWH, облака

Интерактивная аналитика больших данных - одно из самых востребованных и коммерциализированных приложений для технологий Big Data. В этой статье мы рассмотрим, как крупный британский ритейлер запустил цифровую трансформацию своей ИТ-архитектуры, уходя от традиционного DWH с пакетной обработкой к событийно-стриминговой облачной платформе на базе Apache Kafka и Snowflake. Зачем модному ритейлеру...

17Ноя
2020

Как устроен конвейер аналитики больших данных на Apache Kafka и Druid в Netflix

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы по Kafka, обучение Kafka, Big Data, Большие данные, предиктивная аналитика, цифровая экономика, Druid, Kafka, обработка данных, архитектура, SQL

В этой статье разберем, что такое прикладная аналитика больших данных на примере практического использования Apache Kafka и Druid в Netflix для обработки и визуализации метрик пользовательского поведения. Читайте далее, зачем самой популярной стриминговой компании отслеживать показатели клиентских устройств и как это реализуется с помощью Apache Druid, Kafka и других технологий...

16Ноя
2020

Зачем вам UNION вместо JOIN в Apache Druid и семплирование больших данных в Spark Streaming: пример потоковой аналитики Big Data

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

курсы дата инженеров, обучение инженеров Big Data, обработка данных, большие данные, Big Data, Kafka, архитектура, Spark, Druid, предиктивная аналитика, SQL

Недавно мы рассказывали про систему онлайн-аналитики Big Data на базе Apache Kafka, Spark Streaming и Druid для площадки рекламных ссылок Outbrain, а затем на этом же кейсе рассматривали, зачем нужен Graceful shutdown в потоковой обработке больших данных. Сегодня в рамках этого примера разберем, как снизить нагрузку при потоковой передаче множества...