Курсы Big Data, Arenadata, Greenplum, Kafka и Spark

19Дек
2019

Как Apache Cassandra, Kafka, Storm и Hadoop формируют рекомендации пользователям Spotify

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra, HBase, машинное обучение, Machine Learning, Spark, Kafka, предиктивная аналитика, Hadoop

Продолжая разговор про примеры практического использования Apache Cassandra в реальных Big Data проектах, сегодня мы расскажем вам о рекомендательной системе стримингового сервиса Spotify на базе этой нереляционной СУБД в сочетании с другими технологиями больших данных: Kafka, Storm, Crunch и HDFS. Рекомендательная система Spotify: зачем она нужна и что должна делать...

18Дек
2019

10 примеров применения Apache Cassandra в 5 направлениях Big Data

Автор Анна Вичуговав категории Internet of Things, Kafka, Machine Learning, Spark, Use Cases, Блог

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra, HBase, Internet of Things, IoT, IIoT, интернет вещей, машинное обучение, Machine Learning, Spark

Благодаря быстроте, надежности и другим достоинствам Apache Cassandra, эта распределенная NoSQL-СУБД широко применяется во многих Big Data проектах по всему миру. В этой статье мы собрали для вас несколько интересных примеров реального использования Кассандры в 5 ключевых направлениях современного ИТ. Где используется Apache Cassandra: 5 главных приложений c примерами Промышленные...

14Дек
2019

7 основных преимуществ и пара недостатков Apache HBase для Big Data систем

Автор Анна Вичуговав категории HBase, Use Cases, Блог, Статьи

Big Data, Большие данные, архитектура, обработка данных, Hadoop, SQL, NoSQL, HBase, Caasandra, Hive, Impala

В этой статье мы поговорим про ключевые достоинства и недостатки Apache HBase, а также рассмотрим наиболее интересные примеры практического использования этой нереляционной распределенной СУБД в крупных Big Data проектах. Достоинства и недостатки одной из самых популярных NoSQL СУБД для Big Data Прежде всего, отметим, что Apache HBase и Cassandra считаются...

09Дек
2019

Apache Drill vs Cloudera Impala: SQL-аналитика Big Data не только в Hadoop

Автор Анна Вичуговав категории Hive, Use Cases, Блог

Big Data, Большие данные, архитектура, SQL, ETL, Hadoop, Hive, Impala, Apache Drill vs Cloudera Impala

Cloudera Impala – далеко не единственное SQL-решение для быстрой обработки больших данных (Big Data), хранящихся в среде Hadoop. C Impala часто сравнивают Apache Hive, однако они существенно отличаются в плане прикладного использования, как мы уже показали здесь. Гораздо ближе к Impala с точки зрения вычислительной модели и сценариев использования (use...

02Дек
2019

Hive и Impala: коллеги или конкуренты – обзор SQL-инструментов для Apache Hadoop

Автор Анна Вичуговав категории Hive, Use Cases, Блог

Big Data, Большие данные, архитектура, Hive, Impala, SQL

Сегодня мы рассмотрим Apache Hive и Cloudera Impala – аналитические SQL-средства для работы с данными, хранящимися в экосистеме Apache Hadoop и других Big Data хранилищах: HDFS, HBase, Amazon S3. Читайте в нашей статье, что такое Hive и Impala, где они используются и почему они не заменяют, а дополняют друг друга....

28Ноя
2019

Что лучше: RDD, DataFrame или DataSet и почему – выбор структуры данных Apache Spark

Автор Анна Вичуговав категории Spark, Use Cases, Блог

RDD, DataFrame, DataSet, Big Data, Большие данные, архитектура, Spark, SQL

Завершая сравнение структур данных Apache Spark, сегодня мы рассмотрим, в каких случаях разработчику Big Data стоит выбирать датафрейм (DataFrame), датасет (DataSet) или RDD и почему. Также мы приведем практический примеры и сценарии использования (use cases) этих программных абстракций, важных при разработке систем и сервисов по интерактивной аналитике больших данных с...

22Ноя
2019

Apache NiFi vs StreamSets Data Collector: выбираем ETL-средство для Big Data и IoT/IIoT

Автор Анна Вичуговав категории Hive, Internet of Things, Kafka, NiFi, Use Cases, Блог

Big Data, Большие данные, Internet of Things, IIoT, IoT, интернет вещей, архитектура, Kafka, ETL, NiFi

Завершая разговор про ETL-инструменты Big Data и цикл статей об Apache NiFi (ANF), сегодня мы сравним его со StreamSets Data Collector (SDC): чем похожи и чем отличаются эти системы маршрутизации данных. Также рассмотрим, в каких случаях следует выбирать ту или иную платформу и почему. Что общего между Apache NiFi и...

21Ноя
2019

Apache Flume vs NiFi и еще 2 потоковые ETL-платформы Big Data и IoT/IIoT

Автор Анна Вичуговав категории Internet of Things, Kafka, NiFi, Use Cases, Блог

Big Data, Большие данные, Internet of Things, IIoT, IoT, интернет вещей, архитектура, Kubernetes, DevOps, Kafka

Рассмотрев пакетные ETL-инструменты больших данных, сегодня мы поговорим про потоковые средства загрузки и маршрутизации информации из различных источников: Apache NiFi, Fluentd и StreamSets Data Collector. Читайте в нашей статье про их сходства, различия, достоинства и недостатки. Также мы собрали для вас реальные примеры их практического использования в Big Data системах...

20Ноя
2019

Что такое Apache Chukwa, Sqoop и Falcon: сравнение 3-х пакетных ETL-средств для Big Data

Автор Анна Вичуговав категории Hive, Internet of Things, Kafka, Use Cases, Блог

ETL, Big Data, Большие данные, Internet of Things, IIoT, IoT, интернет вещей, архитектура, Hadoop

Продолжая разговор про Apache NiFi и другие ETL-инструменты больших данных, сегодня мы подробнее расскажем про пакетные средства загрузки и маршрутизации информации из различных источников: Sqoop, Chuckwa и Falcon. Читайте в нашей статье, чем они похожи и чем отличаются, а также как применяются в Big Data системах и интернете вещей (Internet...

19Ноя
2019

Не только Apache NiFi: еще 6 ETL-фреймворков загрузки и маршрутизации данных в Big Data и IoT

Автор Анна Вичуговав категории Internet of Things, NiFi, Use Cases, Блог, Цифровая трансформация

Apache NiFi, Big Data, Большие данные, Internet of Things, IIoT, IoT, интернет вещей, архитектура

Несмотря на очевидные достоинства Apache NiFi, этой Big Data платформе быстрой загрузке и маршрутизации данных, активно применяемой в интернете вещей (Internet of Things, IoT), в т.ч. индустриальном (Industrial Iot, IIoT), также свойственны и некоторые недостатки. Сегодня мы поговорим об альтернативах Apache NiFi: Flume, Sqoop, Chuckwa, Gobblin, Falcon, а также Fluentd...