Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

30Ноя
2019

Как работает оптимизация SQL-запросов в Apache Spark: деревья запросов в Catalyst optimizer

Автор Анна Вичуговав категории Spark, Блог

дерево запросов, Big Data, Catalyst, Большие данные, архитектура, Spark, SQL

Продолжая разговор про SQL-оптимизацию в Apache Spark, сегодня мы рассмотрим, что такое дерево запросов и как оптимизатор Catalyst преобразует его в исполняемый байт-код при аналитической обработке Big Data в рамках Спарк. Деревья структурированных запросов и правила управления ими в Apache Spark Отметим, что деревья запросов отличаются от алгебраических деревьев операций тем, что...

29Ноя
2019

Что такое оптимизация SQL-запросов в Apache Spark: разбираемся с Catalyst optimizer

Автор Анна Вичуговав категории Spark, Блог

Big Data, Большие данные, архитектура, Spark, SQL, SQL-оптимизация, Apache Spark, Catalyst

Мы уже немного рассказывали об SQL-оптимизации в Apache Spark. Продолжая эту тему, сегодня рассмотрим подробнее, что такое Catalyst – встроенный оптимизатор структурированных запросов в Spark SQL, а также поговорим про базовые понятия SQL-оптимизации. Читайте в нашей статье о логической и физической оптимизации, плане выполнения запросов и зачем эти концепции нужны...

28Ноя
2019

Что лучше: RDD, DataFrame или DataSet и почему – выбор структуры данных Apache Spark

Автор Анна Вичуговав категории Spark, Use Cases, Блог

RDD, DataFrame, DataSet, Big Data, Большие данные, архитектура, Spark, SQL

Завершая сравнение структур данных Apache Spark, сегодня мы рассмотрим, в каких случаях разработчику Big Data стоит выбирать датафрейм (DataFrame), датасет (DataSet) или RDD и почему. Также мы приведем практический примеры и сценарии использования (use cases) этих программных абстракций, важных при разработке систем и сервисов по интерактивной аналитике больших данных с...

27Ноя
2019

RDD, DataFrame и DataSet с точки зрения программиста Apache Spark: в чем разница

Автор Анна Вичуговав категории Spark, Блог

Big Data, RDD, DataFrame, DataSet, Большие данные, архитектура, Spark, SQL,

Продолжая говорить о сходствах и отличиях структур данных Apache Spark, сегодня мы рассмотрим, чем похожи датафрейм (DataFrame), датасет (DataSet) и RDD с позиции разработчика Big Data. Читайте в нашей статье, как обеспечивается оптимизация кода, безопасность типов при компиляции и прочие аспекты, важные при разработке распределенных программ и интерактивной аналитике больших...

26Ноя
2019

RDD vs DataFrame vs DataSet: чем отличаются эти структуры данных Apache Spark

Автор Анна Вичуговав категории Spark, Блог

Big Data, Большие данные, архитектура, Spark, SQL, DataFrame, DataSet, RDD

В прошлый раз мы рассмотрели понятия датафрейм (DataFrame), датасет (DataSet) и RDD в контексте интерактивной аналитики больших данных (Big Data) с помощью Spark SQL. Сегодня поговорим подробнее, чем отличаются эти структуры данных, сравнив их по разным характеристикам: от времени возникновения до специфики вычислений. Критерии сравнения структур данных Apache Spark Прежде...

25Ноя
2019

3 набора данных в Spark SQL для аналитики Big Data: что такое dataframe, dataset и RDD

Автор Анна Вичуговав категории Spark, Блог

Big Data, Большие данные, архитектура, Spark, SQL

Этой статьей мы открываем цикл публикаций по аналитике больших данных (Big Data) с помощью SQL-инструментов: Apache Impala, Spark SQL, KSQL, Drill, Phoenix и других средств работы с реляционными базами данных и нереляционными хранилищами информации. Начнем со Spark SQL: сегодня мы рассмотрим, какие структуры данных можно анализировать с его помощью и...

22Ноя
2019

Apache NiFi vs StreamSets Data Collector: выбираем ETL-средство для Big Data и IoT/IIoT

Автор Анна Вичуговав категории Hive, Internet of Things, Kafka, NiFi, Use Cases, Блог

Big Data, Большие данные, Internet of Things, IIoT, IoT, интернет вещей, архитектура, Kafka, ETL, NiFi

Завершая разговор про ETL-инструменты Big Data и цикл статей об Apache NiFi (ANF), сегодня мы сравним его со StreamSets Data Collector (SDC): чем похожи и чем отличаются эти системы маршрутизации данных. Также рассмотрим, в каких случаях следует выбирать ту или иную платформу и почему. Что общего между Apache NiFi и...

21Ноя
2019

Apache Flume vs NiFi и еще 2 потоковые ETL-платформы Big Data и IoT/IIoT

Автор Анна Вичуговав категории Internet of Things, Kafka, NiFi, Use Cases, Блог

Big Data, Большие данные, Internet of Things, IIoT, IoT, интернет вещей, архитектура, Kubernetes, DevOps, Kafka

Рассмотрев пакетные ETL-инструменты больших данных, сегодня мы поговорим про потоковые средства загрузки и маршрутизации информации из различных источников: Apache NiFi, Fluentd и StreamSets Data Collector. Читайте в нашей статье про их сходства, различия, достоинства и недостатки. Также мы собрали для вас реальные примеры их практического использования в Big Data системах...

20Ноя
2019

Что такое Apache Chukwa, Sqoop и Falcon: сравнение 3-х пакетных ETL-средств для Big Data

Автор Анна Вичуговав категории Hive, Internet of Things, Kafka, Use Cases, Блог

ETL, Big Data, Большие данные, Internet of Things, IIoT, IoT, интернет вещей, архитектура, Hadoop

Продолжая разговор про Apache NiFi и другие ETL-инструменты больших данных, сегодня мы подробнее расскажем про пакетные средства загрузки и маршрутизации информации из различных источников: Sqoop, Chuckwa и Falcon. Читайте в нашей статье, чем они похожи и чем отличаются, а также как применяются в Big Data системах и интернете вещей (Internet...

19Ноя
2019

Не только Apache NiFi: еще 6 ETL-фреймворков загрузки и маршрутизации данных в Big Data и IoT

Автор Анна Вичуговав категории Internet of Things, NiFi, Use Cases, Блог, Цифровая трансформация

Apache NiFi, Big Data, Большие данные, Internet of Things, IIoT, IoT, интернет вещей, архитектура

Несмотря на очевидные достоинства Apache NiFi, этой Big Data платформе быстрой загрузке и маршрутизации данных, активно применяемой в интернете вещей (Internet of Things, IoT), в т.ч. индустриальном (Industrial Iot, IIoT), также свойственны и некоторые недостатки. Сегодня мы поговорим об альтернативах Apache NiFi: Flume, Sqoop, Chuckwa, Gobblin, Falcon, а также Fluentd...