Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

10Ноя
2020

Что такое Graceful shutdown в Spark Streaming: основы Big Data для начинающих

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

курсы по Apache Spark Apache Spark обучение, курсы по Kafka, обучение Kafka, обработка данных, большие данные, Big Data, Kafka, архитектура, Spark, Druid, предиктивная аналитика, потоковая обработка больших данных кейсы, Graceful shutdown Apache Spark Streaming

Продолжая разбирать, как работает аналитика больших данных на практических примерах, сегодня мы рассмотрим, что такое Graceful shutdown в Apache Spark Streaming. Читайте далее, как устроен этот механизм «плавного» завершения Спарк-заданий и чем он полезен при потоковой обработке больших данных в рамках непрерывных конвейеров на базе Apache Kafka и других технологий...

09Ноя
2020

Веб-реклама, ретаргетинг и проблемы потоковой аналитики больших данных с Apache Kafka, Spark Streaming и Druid: кейс платформы Outbrain

Автор Анна Вичуговав категории Kafka, Spark, Use Cases, Блог

Современная аналитика больших данных ориентируется на обработку Big Data в реальном времени. Такие вычисления «на лету» позволяют в режиме онлайн узнавать о критически важных производственных показателях и оперативно понимать клиентские потребности. Это существенно ускоряет и автоматизирует цикл принятия управленческих решений в соответствии с требованиями сегодняшнего бизнеса. Обычно для реализации архитектуры...

05Ноя
2020

5 этапов продуктивной миграции в облачный Hadoop на базе Google Dataproc

Автор Анна Вичуговав категории AirFlow, Hive, Spark, Use Cases, Блог

Big Data, Большие данные, обработка данных, Hadoop, архитектура, администрирование, Spark, Hive, облака, security, SQL, безопасность, Delta Lake, курсы Hadoop, обучение хадуп

Сегодня поговорим про особенности перехода с локального Hadoop-кластера в облачное SaaS-решение от Google – платформу Dataproc. Читайте далее, какие 5 шагов нужно сделать, чтобы быстро развернуть и эффективно использовать облачную инфраструктуру для запуска заданий Apache Hadoop и Spark в системах хранения и обработки больших данных (Big Data). Шаги переноса Data...

04Ноя
2020

Как работает облачная аналитика больших данных на Apache Hadoop и Spark в Dataproc

Автор Анна Вичуговав категории Hive, Spark, Use Cases, Блог

курсы Hadoop, обучение Hadoop, курсы Spark, обучение Spark, Big Data, Большие данные, обработка данных, Hadoop, архитектура, администрирование, Spark, Hive, облака, security, SQL, безопасность

В этой статье рассмотрим архитектуру и принципы работы системы хранения, аналитической обработки и визуализации больших данных на базе компонентов Hadoop, таких как Apache Spark, Hive, Tez, Ranger и Knox, развернутых в облачном Google-сервисе Dataproc. Читайте далее, как подключить к этим Big Data фреймворкам BI-инструменты Tableau и Looker, а также что обеспечивает...

03Ноя
2020

Как Apache AirFlow помог Airbnb масштабировать Big Data Pipeline и управлять накладными расходами

Автор Анна Вичуговав категории AirFlow, Spark, Use Cases, Блог

курсы по Apache AirFlow, обучение инженеров данных, обучение Apache AirFlow, Big Data, Большие данные, обработка данных, Airflow, архитектура, администрирование, Spark, DataOps

Вчера мы рассматривали проблему управления накладными расходами в сложных конвейерах обработки больших данных на примере использования Apache AirFlow в агрегаторе аренды частного жилья Airbnb. Сегодня разберем, как именно инженеры компании решили проблему роста накладных расходов, отделив бизнес-логику от логики оркестрации в конвейерах Spark-заданий. Читайте далее про принципы проектирования Big Data...

02Ноя
2020

Почему ваш Big Data Pipeline такой медленный: 5 причин роста накладных расходов на примере использования Apache AirFlow в Airbnb

Автор Анна Вичуговав категории AirFlow, Spark, Use Cases, Блог

курсы по Airflow, обучение Airflow, курсы по по инженерии больших данных, обучение инженеров данных, Big Data, Большие данные, обработка данных, Airflow, архитектура, ETL, Spark, Hadoop

Продолжая разговор про конвейеры обработки больших данных, сегодня рассмотрим пример использования Apache AirFlow в агрегаторе аренды частного жилья Airbnb. Читайте далее, в чем коварство накладных расходов при росте ETL-операций и других data pipeline’ов по запуску и выполнению заданий Spark, Hadoop и прочих технологий Big Data. Еще в этой статье разберем,...

30Окт
2020

Apache Kafka, микросервисы и проблема удаления данных: 5 практических примеров

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы по Kafka, обучение Apache Kafka с примерами, обработка данных, большие данные, Big Data, Kafka, администрирование, архитектура, Agile, DevOps

Чтобы сделать наши курсы по Apache Kafka для разработчиков Big Data систем еще более интересными, а обучение – запоминающимся, сегодня мы рассмотрим еще несколько примеров реализации микросервисной архитектуры на этой стриминговой платформе. А также поговорим про проблемы удаления данных в этой архитектурной модели, разобрав кейс компании Twitter по построению корпоративного...

28Окт
2020

Конвейер Big Data для Machine Learning на Apache Kafka: разбираем систему речевой аналитики

Автор Анна Вичуговав категории Kafka, Machine Learning, Use Cases, Блог, Распознавание Речи

обработка данных, большие данные, Big Data, Kafka, машинное обучение, Machine Learning, искусственный интеллект, NLP, курсы по Kafka, Apache Kafka обучение

В этой статье мы рассмотрим комплексный конвейер (pipeline) обработки больших данных с помощью алгоритмов машинного обучения (Machine Learning) для системы речевого анализа Callinter от китайской компании Fano Labs. Apache Kafka играет ключевую роль в этом аналитическом конвейере, ежедневно обеспечивая бесперебойную стабильность и высокую производительность интеллектуальной обработки нескольких тысяч часов звонков....

26Окт
2020

Как работает SQL в Apache NiFi: потоковая обработка Big Data с помощью структурированных запросов

Автор Анна Вичуговав категории NiFi, Use Cases, Блог

обработка данных, большие данные, Big Data, NiFi, ETL, SQL, Impala, курсы по Apache NiFi, обучение инженеров Data Flow, курсы дата-инженеров, обучение инженеров Big Data

Сегодня рассмотрим, как можно фильтровать потоки больших данных в Apache NiFi через типовой механизм SQL-запросов. Читайте далее, чем эта ETL-платформа стриминговой маршрутизации Big Data отличается от других систем, которые используют язык структурированных запросов вне СУБД, какие процессоры позволяют работать с потоковыми файлами (FlowFile) как с таблицами базы данных и при...

23Окт
2020

Все грани Apache NiFi для построения ETL-pipeline’ов и обработки потоковых данных с Kafka и Spark

Автор Анна Вичуговав категории Kafka, Machine Learning, NiFi, Spark, Use Cases, Блог

Spark, обработка данных, большие данные, Big Data, NiFi, ETL, Kafka, машинное обучение, Machine Learning, курсы по Apache NiFi, обучение инженеров больших данных, Big Data Engineer обучение

Продолжая разговор про инженерию больших данных, сегодня рассмотрим, как построить ETL-pipeline на открытых технологиях Big Data. Читайте далее про получение, агрегацию, фильтрацию, маршрутизацию и обработку потоковых данных с помощью Apache NiFi, Kafka и Spark, преобразование JSON, а также обогащение и сохранение данных в Hive, HDFS и Amazon S3. Пример потокового...