Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

26Окт
2019

Сходства и различия популярных Big Data фреймворков распределенной потоковой обработки: сравниваем Apache Kafka Streams, Spark Streaming, Flink, Storm и Samza

Автор Анна Вичуговав категории Flink, Kafka, Spark, Блог

Big Data, Большие данные, архитектура, обработка данных, Spark, Kafka

В этой статье мы рассмотрим, чем похожи и чем отличаются 5 самых популярных инструментов распределенной обработки потоков Big Data: Apache Kafka Streams, Spark Streaming, Flink, Storm и Samza, а также поговорим про наиболее значимые факторы выбора между этими программными средствами. 5 общих характеристик распределенных Big Data фреймворков потоковой обработки Прежде...

19Окт
2019

Где и как используется Apache Samza: реальные примеры Big Data проектов

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, архитектура, обработка данных, Spark, Hadoop, Kafka

Apache Samza часто сравнивают с другими Big Data фреймворками распределенных потоковых вычислений в реальном времени (Real Time, RT): Kafka Streams, Spark Streaming, Flink и Storm. Apache Spark и Flink обладают практически одинаковым набором функциональных возможностей и компонентов, поэтому их можно сравнивать между собой более-менее объективно. Apache Samza является более простой...

17Окт
2019

Где и как в Big Data используется Apache Storm: примеры применения

Автор Анна Вичуговав категории Kafka, Spark, Блог

Apache Storm, Big Data, Большие данные, архитектура, обработка данных, Spark, Hadoop, Kafka

Apache Storm (Сторм, Шторм) часто употребляется в контексте других BigData инструментов для распределенных потоковых вычислений в реальном времени (Real Time, RT): Spark Streaming, Kafka Streams, Flink и Samza. Однако, если Apache Spark и Flink по функциональным возможностям и составу компонентов еще могут конкурировать между собой, то сравнивать с ними Шторм,...

15Окт
2019

Apache Flink vs Spark: что и когда выбрать для потоковой обработки Big Data

Автор Анна Вичуговав категории Flink, Spark, Use Cases, Блог

Flink vs Spark, Big Data, Большие данные, архитектура, обработка данных, Apache Spark

Flink часто сравнивают с Apache Spark, другим популярным инструментом потоковой обработки данных. Оба этих распределенных отказоустойчивых фреймворка с открытым исходным кодом используются в высоконагруженных Big Data приложениях для анализа данных, хранящихся в кластерах Hadoop [1] и других кластерных системах. В этой статье мы поговорим, чем похожи и чем отличаются Флинк и Спарк, а...

14Окт
2019

Что выбрать для потоковой обработки Big Data: Apache Kafka Streams или Spark Streaming

Автор Анна Вичуговав категории Kafka, Spark, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных, Spark

Проанализировав сходства и различия Apache Kafka Streams и Spark Streaming, можно сделать некоторые выводы относительно выбора того или иного решения в качестве основного инструмента потоковой обработки Big Data. В этой статье мы собрали для вас аргументы в пользу Кафка Стримс и Спарк Стриминг в конкретных ситуациях, а также нашли некоторые...

13Окт
2019

ТОП-7 сходств и различий между Apache Kafka Streams и Spark Streaming

Автор Анна Вичуговав категории Kafka, Spark, Блог

Сегодня мы рассмотрим популярные Big Data инструменты обработки потоковых данных: Apache Kafka Streams и Spark Streaming: чем они похожи и чем отличаются. Стоит сказать, что Спарк Стриминг и Кафка Стримс – возможно, наиболее популярные, но не единственные средства обработки информационных потоков Big Data. Для этой цели существует еще множество альтернатив,...

10Окт
2019

Путешествуем во времени и пользовательском пространстве с Apache Kafka Streams

Автор Анна Вичуговав категории Kafka, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных, Кафка Стримс

В этой статье мы продолжим говорить про основы Apache Kafka Streams для начинающих и рассмотрим одно из самых важных свойств Кафка – возможность обработки любых данных, накопленных с начала работы Big Data системы. Что такое окна Apache Kafka Streams и зачем они нужны Кафка обеспечивает объективную достоверность накопленных исторических данных...

09Окт
2019

DSL и Processor API в Apache Kafka Streams для распределенной обработки потоковых данных

Автор Анна Вичуговав категории Kafka, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных

Как мы уже писали, в Apache Kafka Streams таблица и поток данных – это базовые и взаимозаменяемые понятия. Сегодня поговорим о том, как работать с этими объектами Big Data с помощью внутренних средств Кафка Стримс, используя готовые методы высокоуровневого языка DSL и низкоуровневый API-интерфейс для распределенной обработки потоковых данных в...

07Окт
2019

Как работает Apache Kafka Streams: архитектура и топология внутренних обработчиков потоков

Автор Анна Вичуговав категории Kafka, Блог

В продолжение темы про основы Apache Kafka Streams для начинающих, сегодня мы поговорим про то, как абстрактные понятия топика (topic), таблицы (table) и потока (stream) позволяют распараллелить обработку информационных потоков. Читайте в нашем новом материале, что такое обработчики потоков Кафка Стримс, как они обрабатывают разделы топиков (topic partition) Kafka и...

06Окт
2019

Основы Apache Kafka Streams: чем отличаются потоки от таблиц и топиков

Автор Анна Вичуговав категории Kafka, Блог

Сегодня мы поговорим про базовые понятия Apache Kafka Streams: потоки, таблицы и топики Кафка. Читайте в нашей статье, как Stream, Table и Topic связаны между собой, чем они похожи, когда таблица становится потоком и почему это обеспечивает эластичность и отказоустойчивость распределенных потоковых приложений Big Data. Что такое таблица, топик и...