Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

09Дек
2019

Apache Drill vs Cloudera Impala: SQL-аналитика Big Data не только в Hadoop

Автор Анна Вичуговав категории Hive, Use Cases, Блог

Big Data, Большие данные, архитектура, SQL, ETL, Hadoop, Hive, Impala, Apache Drill vs Cloudera Impala

Cloudera Impala – далеко не единственное SQL-решение для быстрой обработки больших данных (Big Data), хранящихся в среде Hadoop. C Impala часто сравнивают Apache Hive, однако они существенно отличаются в плане прикладного использования, как мы уже показали здесь. Гораздо ближе к Impala с точки зрения вычислительной модели и сценариев использования (use...

06Дек
2019

Что выбрать для SQL-аналитики Big Data в Hadoop: Apache Hive или Cloudera Impala

Автор Анна Вичуговав категории Hive, Блог

Big Data, Большие данные, архитектура, SQL, ETL, Hadoop, Hive, Impala

Завершая сравнение SQL-инструментов для больших данных (Big Data), хранящихся в среде Hadoop, сегодня мы рассмотрим аргументы в пользу Apache Hive и Cloudera Impala – когда стоит выбирать ту или иную систему и почему. Также в этой статье мы собрали для вас несколько практических примеров реального использования Импала и Хайв в...

05Дек
2019

Как защитить Big Data в Hive и Impala: проблема безопасности в SQL-on-Hadoop

Автор Анна Вичуговав категории Hive, Блог

Big Data, Большие данные, архитектура, SQL, Hadoop, Hive, Impala, защита данных, безопасность, security

Продолжая тему SQL-on-Hadoop, сегодня мы рассмотрим вопросы обеспечения информационной безопасности в Apache Hive и Cloudera Impala. Читайте в нашем материале, что такое RBAC, в чем специфика cybersecurity больших данных в экосистеме Hadoop и какие средства помогут защитить Big Data при работе с Hive и Impala. Что такое RBAC для SQL-on-Hadoop...

04Дек
2019

Что такое HiveQL: SQL для Big Data в Apache Hadoop — как работают Hive и Impala

Автор Анна Вичуговав категории Hive, Блог

HiveQL, Big Data, Большие данные, архитектура, SQL, Hadoop, Hive, Impala

Мы уже разобрали, что общего между Apache Hive и Cloudera Impala. В этой статье рассмотрим работу этих систем с точки зрения программиста, а также поговорим про язык HiveQL. Читайте в сегодняшнем материале, как эти системы выполняют SQL-запросы для аналитики больших данных (Big Data), хранящихся в кластере Hadoop. Что такое HiveQL,...

03Дек
2019

Hive vs Impala: сходства и различия SQL-инструментов для Apache Hadoop

Автор Анна Вичуговав категории Hive, Блог

В прошлой статье мы рассмотрели основные возможности и ключевые характеристики Apache Hive и Cloudera Impala. Сегодня подробнее поговорим про то, что между ними общего и чем отличаются друг от друга эти SQL-инструменты для обработки больших данных (Big Data), хранящихся в кластере Hadoop. Что общего между Apache Hive и Cloudera Impala:...

02Дек
2019

Hive и Impala: коллеги или конкуренты – обзор SQL-инструментов для Apache Hadoop

Автор Анна Вичуговав категории Hive, Use Cases, Блог

Big Data, Большие данные, архитектура, Hive, Impala, SQL

Сегодня мы рассмотрим Apache Hive и Cloudera Impala – аналитические SQL-средства для работы с данными, хранящимися в экосистеме Apache Hadoop и других Big Data хранилищах: HDFS, HBase, Amazon S3. Читайте в нашей статье, что такое Hive и Impala, где они используются и почему они не заменяют, а дополняют друг друга....

01Дек
2019

4 этапа SQL-оптимизации в Big Data: насколько эффективен Catalyst в Apache Spark

Автор Анна Вичуговав категории Spark, Блог

Big Data, Большие данные, архитектура, Spark, SQL

Завершая тему SQL-оптимизации в Big Data на примере Apache Spark, сегодня мы подробнее расскажем, какие действия выполняются на каждом этапе преобразования дерева запросов в исполняемый код. А рассмотрим, за счет чего так эффективна автоматическая кодогенерация в Catalyst. Читайте в нашей статье про планы выполнения запросов, квазиквоты Scala и операции с...