Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

28Ноя
2019

Что лучше: RDD, DataFrame или DataSet и почему – выбор структуры данных Apache Spark

Автор Анна Вичуговав категории Spark, Use Cases, Блог

RDD, DataFrame, DataSet, Big Data, Большие данные, архитектура, Spark, SQL

Завершая сравнение структур данных Apache Spark, сегодня мы рассмотрим, в каких случаях разработчику Big Data стоит выбирать датафрейм (DataFrame), датасет (DataSet) или RDD и почему. Также мы приведем практический примеры и сценарии использования (use cases) этих программных абстракций, важных при разработке систем и сервисов по интерактивной аналитике больших данных с...

27Ноя
2019

RDD, DataFrame и DataSet с точки зрения программиста Apache Spark: в чем разница

Автор Анна Вичуговав категории Spark, Блог

Big Data, RDD, DataFrame, DataSet, Большие данные, архитектура, Spark, SQL,

Продолжая говорить о сходствах и отличиях структур данных Apache Spark, сегодня мы рассмотрим, чем похожи датафрейм (DataFrame), датасет (DataSet) и RDD с позиции разработчика Big Data. Читайте в нашей статье, как обеспечивается оптимизация кода, безопасность типов при компиляции и прочие аспекты, важные при разработке распределенных программ и интерактивной аналитике больших...

26Ноя
2019

RDD vs DataFrame vs DataSet: чем отличаются эти структуры данных Apache Spark

Автор Анна Вичуговав категории Spark, Блог

Big Data, Большие данные, архитектура, Spark, SQL, DataFrame, DataSet, RDD

В прошлый раз мы рассмотрели понятия датафрейм (DataFrame), датасет (DataSet) и RDD в контексте интерактивной аналитики больших данных (Big Data) с помощью Spark SQL. Сегодня поговорим подробнее, чем отличаются эти структуры данных, сравнив их по разным характеристикам: от времени возникновения до специфики вычислений. Критерии сравнения структур данных Apache Spark Прежде...

25Ноя
2019

3 набора данных в Spark SQL для аналитики Big Data: что такое dataframe, dataset и RDD

Автор Анна Вичуговав категории Spark, Блог

Big Data, Большие данные, архитектура, Spark, SQL

Этой статьей мы открываем цикл публикаций по аналитике больших данных (Big Data) с помощью SQL-инструментов: Apache Impala, Spark SQL, KSQL, Drill, Phoenix и других средств работы с реляционными базами данных и нереляционными хранилищами информации. Начнем со Spark SQL: сегодня мы рассмотрим, какие структуры данных можно анализировать с его помощью и...

22Ноя
2019

Apache NiFi vs StreamSets Data Collector: выбираем ETL-средство для Big Data и IoT/IIoT

Автор Анна Вичуговав категории Hive, Internet of Things, Kafka, NiFi, Use Cases, Блог

Big Data, Большие данные, Internet of Things, IIoT, IoT, интернет вещей, архитектура, Kafka, ETL, NiFi

Завершая разговор про ETL-инструменты Big Data и цикл статей об Apache NiFi (ANF), сегодня мы сравним его со StreamSets Data Collector (SDC): чем похожи и чем отличаются эти системы маршрутизации данных. Также рассмотрим, в каких случаях следует выбирать ту или иную платформу и почему. Что общего между Apache NiFi и...

21Ноя
2019

Apache Flume vs NiFi и еще 2 потоковые ETL-платформы Big Data и IoT/IIoT

Автор Анна Вичуговав категории Internet of Things, Kafka, NiFi, Use Cases, Блог

Big Data, Большие данные, Internet of Things, IIoT, IoT, интернет вещей, архитектура, Kubernetes, DevOps, Kafka

Рассмотрев пакетные ETL-инструменты больших данных, сегодня мы поговорим про потоковые средства загрузки и маршрутизации информации из различных источников: Apache NiFi, Fluentd и StreamSets Data Collector. Читайте в нашей статье про их сходства, различия, достоинства и недостатки. Также мы собрали для вас реальные примеры их практического использования в Big Data системах...

20Ноя
2019

Что такое Apache Chukwa, Sqoop и Falcon: сравнение 3-х пакетных ETL-средств для Big Data

Автор Анна Вичуговав категории Hive, Internet of Things, Kafka, Use Cases, Блог

ETL, Big Data, Большие данные, Internet of Things, IIoT, IoT, интернет вещей, архитектура, Hadoop

Продолжая разговор про Apache NiFi и другие ETL-инструменты больших данных, сегодня мы подробнее расскажем про пакетные средства загрузки и маршрутизации информации из различных источников: Sqoop, Chuckwa и Falcon. Читайте в нашей статье, чем они похожи и чем отличаются, а также как применяются в Big Data системах и интернете вещей (Internet...

19Ноя
2019

Не только Apache NiFi: еще 6 ETL-фреймворков загрузки и маршрутизации данных в Big Data и IoT

Автор Анна Вичуговав категории Internet of Things, NiFi, Use Cases, Блог, Цифровая трансформация

Apache NiFi, Big Data, Большие данные, Internet of Things, IIoT, IoT, интернет вещей, архитектура

Несмотря на очевидные достоинства Apache NiFi, этой Big Data платформе быстрой загрузке и маршрутизации данных, активно применяемой в интернете вещей (Internet of Things, IoT), в т.ч. индустриальном (Industrial Iot, IIoT), также свойственны и некоторые недостатки. Сегодня мы поговорим об альтернативах Apache NiFi: Flume, Sqoop, Chuckwa, Gobblin, Falcon, а также Fluentd...

15Ноя
2019

Что не так с Apache NiFi: 5 главных недостатков, важных в Big Data и IoT-проектах

Автор Анна Вичуговав категории Internet of Things, Kafka, NiFi, Use Cases, Блог

Apache NiFi, Big Data, Большие данные, Internet of Things, IIoT, IoT, интернет вещей, архитектура, Kafka

Популярность Apache NiFi в Big Data системах и интернете вещей (Internet of Things, IoT), в т.ч. индустриальном (Industrial Iot, IIoT), обусловлена широкими функциональными возможностями этой платформы по быстрой загрузке и маршрутизации данных любого формата между множеством источников и приемников информации. Также среди ключевых преимуществ NiFi отмечается распределенная архитектура, масштабируемость, наличие...

14Ноя
2019

Чем хорош Apache NiFi: 10 главных достоинств для применения в Big Data и IoT-проектах

Автор Анна Вичуговав категории Internet of Things, Kafka, NiFi, Блог

Big Data, Большие данные, Internet of Things, IIoT, IoT, интернет вещей, архитектура, Kafka

Продолжая разговор про практическое использование Apache NiFi в системах больших данных (Big Data) и интернета вещей (Internet of Things), сегодня мы рассмотрим, чем обусловлена популярность этой кластерной платформы маршрутизации, преобразования и доставки распределенной информации. Читайте в нашей статье про ключевые преимущества Apache NiFi в контексте прикладного использования этого инструмента. 10...

13Ноя
2019

Блокчейн, озеро данных и еще 3 кейса Apache NiFi в комплексных Big Data системах

Автор Анна Вичуговав категории Internet of Things, Kafka, NiFi, Spark, Use Cases, Блог

Большие данные, предиктивная аналитика, Internet of Things, IIoT, IoT, интернет вещей, архитектура, Kafka, Spark

В прошлый раз мы рассмотрели пример прототипа IIoT-системы на основе одноплатного мини-компьютера Raspberry Pi, брокере обмена сообщениями Mosquitto и платформе маршрутизации данных Apache NiFi. Сегодня мы покажем, что этот инструмент преобразования и доставки данных из множества сторонних систем может применяться не только в IoT-решениях. Читайте в нашей статье про 5...

12Ноя
2019

Как построить IIoT-систему на базе Apache Nifi: разбираем прототип

Автор Анна Вичуговав категории Internet of Things, NiFi, Use Cases, Блог, Цифровая трансформация

Industrial Internet Of Things, Apache Nifi, MiniFi, MQTT, Big Data, Большие данные, предиктивная аналитика, Цифровая трансформация, цифровизация, Internet of Things, IoT, IIoT, интернет вещей, архитектура

Мы уже рассказывали о многоуровневой системе промышленного интернета вещей и ее smart-компонентах, обеспечивающих первичную обработку и оперативную передачу технологических данных с конечных устройств в интеллектуальные сервисы IoT-платформы. Сегодня рассмотрим прототип такой IIoT-системы, построенной с использованием Big Data средств ETL-обработки информационных потоков – Apache NiFi и MiniFi, а также поговорим о...

10Ноя
2019

12 уровней IIoT-архитектуры: от периферийных датчиков до аналитики Big Data

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

Big Data, Большие данные, Internet of Things, IoT, IIoT, интернет вещей, архитектура, Kafka, обработка данных, Spark, машинное обучение, Machine Learning

Мы уже рассматривали типовую архитектуру систем Internet of Things (IoT). Сегодня поговорим подробнее про уровневую модель передачи и обработки данных от конечных устройств до облачных IoT-платформ, а также приведем примеры наиболее популярных средств обеспечения каждого из уровней этой сложной архитектуры Industrial Internet of Things, включая инструменты Big Data. Многоуровневый IIoT:...

01Ноя
2019

Блеск и нищета главной технологии Big Data: достоинства и недостатки MapReduce

Автор Анна Вичуговав категории Spark, Блог

Big Data, Большие данные, архитектура, обработка данных, Spark, Hadoop

MapReduce можно назвать основой Big Data, т.к. именно данная технология позволяет обрабатывать огромные массивы информации параллельно в распределенных кластерах. Эту вычислительную модель поддерживают множество различных коммерческих и свободных продуктов: Apache Hadoop, Spark, Greenplum, Hive, MongoDB, Phoenix, DryadLINQ и прочие Big Data фреймворки и библиотеки, написанные на разных языках программирования [1]. Сегодня...

27Окт
2019

Apache Kafka Streams, Spark Streaming, Flink, Storm или Samza: что и когда выбирать для обработки потоков Big Data

Автор Анна Вичуговав категории Flink, Kafka, Spark, Блог

Big Data, Большие данные, архитектура, обработка данных, Spark

Проанализировав сходства и различия пяти самых популярных Big Data фреймворков для распределенных потоковых вычислений (Apache Kafka Streams, Spark Streaming, Flink, Storm и Samza), в этой статье мы сравним их по 10 критериям и отметим, какие именно факторы являются наиболее значимыми для объективного выбора. Сравнительный анализ самых популярных фреймворков потоковой обработки...

26Окт
2019

Сходства и различия популярных Big Data фреймворков распределенной потоковой обработки: сравниваем Apache Kafka Streams, Spark Streaming, Flink, Storm и Samza

Автор Анна Вичуговав категории Flink, Kafka, Spark, Блог

Big Data, Большие данные, архитектура, обработка данных, Spark, Kafka

В этой статье мы рассмотрим, чем похожи и чем отличаются 5 самых популярных инструментов распределенной обработки потоков Big Data: Apache Kafka Streams, Spark Streaming, Flink, Storm и Samza, а также поговорим про наиболее значимые факторы выбора между этими программными средствами. 5 общих характеристик распределенных Big Data фреймворков потоковой обработки Прежде...

19Окт
2019

Где и как используется Apache Samza: реальные примеры Big Data проектов

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, архитектура, обработка данных, Spark, Hadoop, Kafka

Apache Samza часто сравнивают с другими Big Data фреймворками распределенных потоковых вычислений в реальном времени (Real Time, RT): Kafka Streams, Spark Streaming, Flink и Storm. Apache Spark и Flink обладают практически одинаковым набором функциональных возможностей и компонентов, поэтому их можно сравнивать между собой более-менее объективно. Apache Samza является более простой...

17Окт
2019

Где и как в Big Data используется Apache Storm: примеры применения

Автор Анна Вичуговав категории Kafka, Spark, Блог

Apache Storm, Big Data, Большие данные, архитектура, обработка данных, Spark, Hadoop, Kafka

Apache Storm (Сторм, Шторм) часто употребляется в контексте других BigData инструментов для распределенных потоковых вычислений в реальном времени (Real Time, RT): Spark Streaming, Kafka Streams, Flink и Samza. Однако, если Apache Spark и Flink по функциональным возможностям и составу компонентов еще могут конкурировать между собой, то сравнивать с ними Шторм,...

15Окт
2019

Apache Flink vs Spark: что и когда выбрать для потоковой обработки Big Data

Автор Анна Вичуговав категории Flink, Spark, Use Cases, Блог

Flink vs Spark, Big Data, Большие данные, архитектура, обработка данных, Apache Spark

Flink часто сравнивают с Apache Spark, другим популярным инструментом потоковой обработки данных. Оба этих распределенных отказоустойчивых фреймворка с открытым исходным кодом используются в высоконагруженных Big Data приложениях для анализа данных, хранящихся в кластерах Hadoop [1] и других кластерных системах. В этой статье мы поговорим, чем похожи и чем отличаются Флинк и Спарк, а...

14Окт
2019

Что выбрать для потоковой обработки Big Data: Apache Kafka Streams или Spark Streaming

Автор Анна Вичуговав категории Kafka, Spark, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных, Spark

Проанализировав сходства и различия Apache Kafka Streams и Spark Streaming, можно сделать некоторые выводы относительно выбора того или иного решения в качестве основного инструмента потоковой обработки Big Data. В этой статье мы собрали для вас аргументы в пользу Кафка Стримс и Спарк Стриминг в конкретных ситуациях, а также нашли некоторые...