Курсы Big Data, Arenadata, Greenplum, Kafka и Spark

05Сен
2020

Автор Dmitry Ermilovв категории Spark, Блог

Python считается из основных языков программирования в областях Data Science и Big Data, поэтому не удивительно, что Apache Spark предлагает интерфейс и для него. Data Scientist’ы, которые знают Python, могут запросто производить параллельные вычисления с PySpark. Читайте в нашей статье об инициализации Spark-приложения в Python, различии между Pandas и PySpark,...

26Авг
2020

Запуск Apache Spark на Kubernetes: скрипты, операторы и особенности клиентского режима

Автор Анна Вичуговав категории Spark, Блог

Spark, Kubernetes, DevOps, администрирование, Hadoop

Продолжая разговор про обучение Spark на реальных примерах, сегодня мы рассмотрим, как работает этот Big Data фреймворк на Kubernetes, популярной DevOps-платформе автоматизированного управления контейнеризированными приложениями. Читайте в нашей статье, как запустить приложение Apache Spark в кластере Kubernetes (K8s) с помощью submit-скрипта и оператора, а также при чем здесь Docker-образ. Запуск...

20Авг
2020

Что не так с Apache Spark на Kubernetes: 5 ключевых недостатков

Автор Анна Вичуговав категории Spark, Use Cases, Блог

Spark, Kubernetes, DevOps, администрирование, Hadoop, контейнеризация, MapReduce

Вчера мы рассказывали об основных сценариях запуска Apache Spark на Kubernetes и преимуществах этого варианта развертывания популярного Big Data фреймворка на DevOps-платформе автоматизированного управления контейнеризированными приложениями. Сегодня поговорим про обратную сторону всех этих преимуществ: читайте в нашей статье, каковы основные ограничения и главные недостатки запуска Apache Spark на Kubernetes (K8s)....

19Авг
2020

Когда и зачем нужен Apache Spark на Kubernetes: варианты использования и преимущества

Автор Анна Вичуговав категории Spark, Use Cases, Блог

Spark, Kubernetes, DevOps, администрирование, Agile, Docker, Hadoop

Чтобы сделать курсы по Spark еще более интересными и полезными, сегодня мы расскажем, зачем этот Big Data фреймворк разворачивают на Kubernetes (K8s) – платформе автоматизации развёртывания, масштабирования и управления контейнеризированными приложениями. Читайте в нашей статье про основные варианты использования и достоинства этого подхода к администрированию и эксплуатации Apache Spark. Зачем...

19Июл
2020

3 достоинства и 5 особенностей интеграции Apache Kudu и Spark с примерами

Автор Анна Вичуговав категории Spark, Блог

Big Data, Большие данные, обработка данных, архитектура, Hadoop, HBase, Impala, SQL, NoSQL, Kudu, Spark, HDFS

Недавно мы разбирали особенности интеграции Apache Kudu и Spark. В продолжение этой темы, сегодня поговорим про некоторые особенности выполнения SQL-операций с данными при интеграции этих Big Data фреймворков, а также рассмотрим пример записи данных в мульти-мастерный кластер Куду через Impala с помощью API Data Frame на PySpark. Что приносит Kudu...

18Июл
2020

Как организовать конвейер self-service Machine Learning на Apache Kafka, Spark Streaming, Kudu и Impala: пример расширенной BI-аналитики Big Data

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, HBase, Impala, SQL, NoSQL, Kudu, Spark, Kafka, банки, security, машинное обучение, Machine Learning

Продолжая разбирать production-кейсы реального использования этих технологий Big Data, сегодня поговорим подробнее, каковы плюсы совместного применения Kudu, Spark Streaming, Kafka и Cloudera Impala на примере аналитической платформы для мониторинга событий информационной безопасности банка «Открытие». Также читайте в нашей статье про возможности этих технологий в контексте машинного обучения (Machine Learning), в...

17Июл
2020

Как сократить цикл BI-аналитики Big Data в тысячи раз или ETL-конвейер Apache Kafka-Storm-Kudu-Impala в Xiaomi

Автор Анна Вичуговав категории Hive, Kafka, Spark, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, Hadoop, HBase, Impala, SQL, NoSQL, Kudu, Spark, Kafka, Storm

Сегодня мы рассмотрим практический кейс использования Apache Kudu с Kafka, Storm и Cloudera Impala в крупной китайской корпорации, которая производит смартфоны. На базе этих Big Data технологий компания Xiaomi построила собственную платформу для BI-аналитики больших данных и генерации отчетности в реальном времени. История Kudu-проекта в Xiaomi Корпорация Xiaomi начала использовать...

15Июл
2020

Быстрая аналитика больших данных в Data Lake на Apache Kudu с Kafka и Spark

Автор Анна Вичуговав категории Hive, Kafka, Spark, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, Hadoop, HBase, Impala, Data Lake, SQL, NoSQL, Hive, Kafka, Spark, Kudu

В продолжение темы про совместное использование Apache Kudu с другими технологиями Big Data, сегодня рассмотрим, как эта NoSQL-СУБД работает вместе с Kafka, Spark и Cloudera Impala для построения озера данных (Data Lake) для быстрой аналитики больших данных в режиме реального времени. Также читайте в нашей статье про особенности интеграции Apache...

07Июл
2020

От косметики до машиностроения: 3 кейса внедрения технологий Big Data на примере Data Lake

Автор Анна Вичуговав категории Hive, Spark, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, архитектура, Hadoop, Data Lake, цифровизация, цифровая трансформация, IIoT, Internet of Things, IoT, Machine Learning, интернет вещей, Машинное Обучение, нефтегазовая отрасль, нефтегазовая промышленность, нефтянка, предиктивная аналитика

В продолжение темы про озера данных (Data Lake) и Apache Hadoop, сегодня мы рассмотрим еще 3 примера использования этих технологий Big Data для аналитики больших данных в промышленности. Читайте в нашей статье, как косметический гигант L’Oréal создает новые продукты с помощью платформы Talend Data Fabric, «УРАЛХИМ» прогнозирует объемы продукции и...

05Июл
2020

Аналитика больших данных для фармацевтов: Arenadata Hadoop и другие Big Data системы в аптечной сети АСНА

Автор Анна Вичуговав категории Hive, Spark, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, обработка данных, архитектура, Hadoop, Data Lake, DWH, цифровизация, цифровая трансформация, Arenadata

В этой статье разберем кейс построения экосистемы управления Big Data с озером данных на примере федеральной фармацевтической сети - российской Ассоциации независимых аптек (АСНА). Читайте в этом материале, зачем фармацевтическому ритейлеру большие данные, с какими трудностями столкнулся этот проект цифровизации и как открытые технологии (Arenadata Hadoop, Apache Spark, NiFi и...