Курсы Big Data, Hadoop, Arenadata, Kafka и Spark

03Окт

Повышаем скорость обработки потоков Big Data с помощью Apache Kafka Streams

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Читайте в нашей сегодняшней статье, как Apache Kafka Streams помогает быстро создавать приложения для обработки потоков Big Data без кластера Кафка, работать с состояниями распределенных программ без базы данных, эффективно тестировать и разворачивать потоковые микросервисы согласно DevOps-подходу, а также реальные кейсы практического применения этой технологии. Что такое Apache Kafka Streams...

30Сен

Какие бывают форматы файлов Big Data: row vs column

Автор Анна Вичуговав категории Hive, Kafka, Spark, Блог

Big Data файлы, Apache AVRO, Sequence, Parquet, ORC, RCFile

Продолжая разговор про форматы Big Data файлов, сегодня мы рассмотрим разницу между линейными и колоночными типами, а также расскажем о том, как выбирать между AVRO, Sequence, Parquet, ORC и RCFile при работе с Apache Hadoop, Kafka, Spark, Flume, Hive, Drill, Druid и других средствах работы с большими данными. Итак, форматы...

23Сен

Как хранить большие данные: Apache Parquet, Avro и другие форматы Big Data

Автор Анна Вичуговав категории Kafka, Spark, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных, Hadoop, Spark

Мы уже упоминали формат Parquet в статье про Apache Avro, одну из наиболее распространенных схем данных Big Data, часто используемую в Kafka, Spark и Hadoop. Сегодня рассмотрим более подробно, чем именно хорошо Apache Parquet и как он отличается от других форматов Big Data. Что такое Apache Parquet и как он...

17Сен

Как связать Apache Kafka и Spark Streaming: 2 способа интеграции Big Data систем

Автор Анна Вичуговав категории Kafka, Spark, Блог

Интеграция Apache Kafka и Spark Streaming, Big Data

Мы уже рассказывали, зачем нужна интеграция Apache Kafka и Spark Streaming. Сегодня рассмотрим, как технически организовать такой Big Data конвейер по непрерывной обработке потоковых данных в режиме реального времени. Способы интеграции Наладить двустороннюю связь между Apache Kafka и Spark Streaming возможны следующими 2-мя способами: получение сообщений через службу синхронизации Zookeeper...

16Сен

Синергия Apache Kafka и Spark Streaming: потоковая обработка Big Data в реальном времени

Автор Анна Вичуговав категории Kafka, Spark, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных, Spark, машинное обучение, Machine Learning

В этой статье мы рассмотрим архитектуру Big Data конвейера по непрерывной обработке потоковых данных в режиме реального времени на примере интеграции Apache Kafka и Spark Streaming. Что такое Spark Streaming и для чего он нужен Spark Streaming – это надстройка фреймворка с открытым исходным кодом Apache Spark для обработки потоковых...

14Сен

Apache Kafka vs RabbitMQ в Big Data: сходства и различия самых популярных брокеров сообщений

Автор Анна Вичуговав категории Kafka, Блог

Apache Kafka, RabbitMQ, Big Data, Большие данные, архитектура, обработка данных

Apache Kafka – не единственный программный брокер сообщений и система управления очередями, используемая в высоконагруженных Big Data проектах. Кафка часто сравнивают с другим популярным продуктом аналогичного назначения – RabbitMQ. В сегодняшней статье мы рассмотрим, чем похожи и чем отличаются Apache Kafka и RabbitMQ, а также поговорим о том, что следует...

13Сен

Что такое Avro: как Apache Kafka и другие технологии Big Data используют эту схему данных

Автор Анна Вичуговав категории Kafka, Блог

Мы уже рассказывали о сериализации, схемах данных и их важности в Big Data на примере Schema Registry для Apache Kafka. В продолжение ряда статей про основы Кафка для начинающих, сегодня мы поговорим про Apache Avro – наиболее популярную схему и систему сериализации данных: ее особенностях и применении в технологиях Big...

12Сен

Как Apache Kafka работает с разными файлами Big Data: зачем нужен Schema Registry

Автор Анна Вичуговав категории Kafka, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных

Продолжая серию публикаций про основы Apache Kafka для начинающих, в этой статье мы рассмотрим, зачем этой распределенной системе управления сообщениями нужен реестр схем данных (Schema Registry) и что такое сериализация файлов Big Data. Что такое схемы данных в Big Data и как они используются Понятие схемы неразрывно связано с форматом...

09Сен

Еще раз про Big Data Security: как обеспечить безопасность кластера Apache Kafka

Автор Анна Вичуговав категории Kafka, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных, защита информации, безопасность, security

В рамках серии публикаций про основы Apache Kafka для начинающих, сегодня мы поговорим про информационную безопасность этой популярной в сфере Big Data распределенной системы управления сообщениями: шифрование, защищенные протоколы, аутентификация, авторизация и другие средства cybersecurity. Что обеспечивает безопасность Apache Kafka в кластере Big Data Информационная безопасность Apache Kafka основана на...

08Сен

И чем же она хороша: ТОП-10 достоинств Apache Kafka для Big Data систем

Автор Анна Вичуговав категории Internet of Things, Kafka, Блог

Kafka, Big Data, Большие данные, интернет вещей, IoT, Internet Of Things, архитектура, обработка данных, интеграция

Продолжая разговор про основы Apache Kafka, сегодня мы рассмотрим, почему этот распределённый брокер сообщений стал таким популярным в архитектуре систем Big Data. Читайте в нашей статье, как Кафка обеспечивает высокую производительность процессов сбора и агрегации информационных потоков от множества источников, надежно гарантируя долговечную сохранность сообщений, и эффективно интегрируется с другими...