Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

14Окт
2019

Что выбрать для потоковой обработки Big Data: Apache Kafka Streams или Spark Streaming

Автор Анна Вичуговав категории Kafka, Spark, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных, Spark

Проанализировав сходства и различия Apache Kafka Streams и Spark Streaming, можно сделать некоторые выводы относительно выбора того или иного решения в качестве основного инструмента потоковой обработки Big Data. В этой статье мы собрали для вас аргументы в пользу Кафка Стримс и Спарк Стриминг в конкретных ситуациях, а также нашли некоторые...

13Окт
2019

ТОП-7 сходств и различий между Apache Kafka Streams и Spark Streaming

Автор Анна Вичуговав категории Kafka, Spark, Блог

Сегодня мы рассмотрим популярные Big Data инструменты обработки потоковых данных: Apache Kafka Streams и Spark Streaming: чем они похожи и чем отличаются. Стоит сказать, что Спарк Стриминг и Кафка Стримс – возможно, наиболее популярные, но не единственные средства обработки информационных потоков Big Data. Для этой цели существует еще множество альтернатив,...

10Окт
2019

Путешествуем во времени и пользовательском пространстве с Apache Kafka Streams

Автор Анна Вичуговав категории Kafka, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных, Кафка Стримс

В этой статье мы продолжим говорить про основы Apache Kafka Streams для начинающих и рассмотрим одно из самых важных свойств Кафка – возможность обработки любых данных, накопленных с начала работы Big Data системы. Что такое окна Apache Kafka Streams и зачем они нужны Кафка обеспечивает объективную достоверность накопленных исторических данных...

09Окт
2019

DSL и Processor API в Apache Kafka Streams для распределенной обработки потоковых данных

Автор Анна Вичуговав категории Kafka, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных

Как мы уже писали, в Apache Kafka Streams таблица и поток данных – это базовые и взаимозаменяемые понятия. Сегодня поговорим о том, как работать с этими объектами Big Data с помощью внутренних средств Кафка Стримс, используя готовые методы высокоуровневого языка DSL и низкоуровневый API-интерфейс для распределенной обработки потоковых данных в...

07Окт
2019

Как работает Apache Kafka Streams: архитектура и топология внутренних обработчиков потоков

Автор Анна Вичуговав категории Kafka, Блог

В продолжение темы про основы Apache Kafka Streams для начинающих, сегодня мы поговорим про то, как абстрактные понятия топика (topic), таблицы (table) и потока (stream) позволяют распараллелить обработку информационных потоков. Читайте в нашем новом материале, что такое обработчики потоков Кафка Стримс, как они обрабатывают разделы топиков (topic partition) Kafka и...

06Окт
2019

Основы Apache Kafka Streams: чем отличаются потоки от таблиц и топиков

Автор Анна Вичуговав категории Kafka, Блог

Сегодня мы поговорим про базовые понятия Apache Kafka Streams: потоки, таблицы и топики Кафка. Читайте в нашей статье, как Stream, Table и Topic связаны между собой, чем они похожи, когда таблица становится потоком и почему это обеспечивает эластичность и отказоустойчивость распределенных потоковых приложений Big Data. Что такое таблица, топик и...

05Окт
2019

5 достоинств и пара недостатков Apache Kafka Streams API для DevOps-инженера Big Data систем

Автор Анна Вичуговав категории Kafka, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных, DevOps

Мы уже рассказывали про Apache Kafka Streams API. В продолжение этой темы, сегодня отметим ключевые преимущества этой технологии, особенно важные для DevOps-инженера и разработчика Big Data систем, а также поговорим про некоторые недостатки и возможные альтернативы Кафка Стримс API. 5 главных достоинств Apache Kafka Streams API Для DevOps-инженера Big Data...

04Окт
2019

Как Apache Kafka Streams API помогает DevOps-инженеру Big Data систем

Автор Анна Вичуговав категории Internet of Things, Kafka, Spark, Use Cases, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных, Spark, IoT, Internet Of Things, интернет вещей, DevOps

Продолжая разговор про Apache Kafka Streams, сегодня мы расскажем, как API этой мощной библиотеки упрощает жизнь DevOps-инженеру и разработчику Big Data систем. Читайте в нашей статье, как Kafka Streams API эффективно обрабатывать большие данные из топиков Кафка на лету без использования Apache Spark, а также быстро создавать и развертывать распределенные...

03Окт
2019

Повышаем скорость обработки потоков Big Data с помощью Apache Kafka Streams

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Читайте в нашей сегодняшней статье, как Apache Kafka Streams помогает быстро создавать приложения для обработки потоков Big Data без кластера Кафка, работать с состояниями распределенных программ без базы данных, эффективно тестировать и разворачивать потоковые микросервисы согласно DevOps-подходу, а также реальные кейсы практического применения этой технологии. Что такое Apache Kafka Streams...

30Сен
2019

Какие бывают форматы файлов Big Data: row vs column

Автор Анна Вичуговав категории Hive, Kafka, Spark, Блог

Big Data файлы, Apache AVRO, Sequence, Parquet, ORC, RCFile

Продолжая разговор про форматы Big Data файлов, сегодня мы рассмотрим разницу между линейными и колоночными типами, а также расскажем о том, как выбирать между AVRO, Sequence, Parquet, ORC и RCFile при работе с Apache Hadoop, Kafka, Spark, Flume, Hive, Drill, Druid и других средствах работы с большими данными. Итак, форматы...