Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

13Окт
2019

ТОП-7 сходств и различий между Apache Kafka Streams и Spark Streaming

Автор Анна Вичуговав категории Kafka, Spark, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных, Spark

Сегодня мы рассмотрим популярные Big Data инструменты обработки потоковых данных: Apache Kafka Streams и Spark Streaming: чем они похожи и чем отличаются. Стоит сказать, что Спарк Стриминг и Кафка Стримс – возможно, наиболее популярные, но не единственные средства обработки информационных потоков Big Data. Для этой цели существует еще множество альтернатив,...

04Окт
2019

Как Apache Kafka Streams API помогает DevOps-инженеру Big Data систем

Автор Анна Вичуговав категории Internet of Things, Kafka, Spark, Use Cases, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных, Spark, IoT, Internet Of Things, интернет вещей, DevOps

Продолжая разговор про Apache Kafka Streams, сегодня мы расскажем, как API этой мощной библиотеки упрощает жизнь DevOps-инженеру и разработчику Big Data систем. Читайте в нашей статье, как Kafka Streams API эффективно обрабатывать большие данные из топиков Кафка на лету без использования Apache Spark, а также быстро создавать и развертывать распределенные...

02Окт
2019

Как Machine Learning помогает бизнесу зарабатывать на погоде: Big Data и метеомаркетинг

Автор Анна Вичуговав категории Internet of Things, Kafka, Machine Learning, Spark, Use Cases, Блог, Цифровая трансформация

Big Data, Большие данные, маркетинг, машинное обучение, Machine Learning, Spark, Kafka, дрон, беспилотник, интернет вещей, Internet of Things, мультикоптер

Мы уже рассказывали, как машинное обучение (Machine Learning) и большие данные (Big Data) помогают бизнесу сделать свои маркетинговые кампании персональными и оптимизировать рекламный бюджет. В этой статье рассмотрим, как метеоусловия влияют на маркетинг и каким образом бизнес может заработать на использовании данных об этих внешних условиях. Как погода влияет на...

30Сен
2019

Какие бывают форматы файлов Big Data: row vs column

Автор Анна Вичуговав категории Hive, Kafka, Spark, Блог

Big Data файлы, Apache AVRO, Sequence, Parquet, ORC, RCFile

Продолжая разговор про форматы Big Data файлов, сегодня мы рассмотрим разницу между линейными и колоночными типами, а также расскажем о том, как выбирать между AVRO, Sequence, Parquet, ORC и RCFile при работе с Apache Hadoop, Kafka, Spark, Flume, Hive, Drill, Druid и других средствах работы с большими данными. Итак, форматы...

23Сен
2019

Как хранить большие данные: Apache Parquet, Avro и другие форматы Big Data

Автор Анна Вичуговав категории Kafka, Spark, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных, Hadoop, Spark

Мы уже упоминали формат Parquet в статье про Apache Avro, одну из наиболее распространенных схем данных Big Data, часто используемую в Kafka, Spark и Hadoop. Сегодня рассмотрим более подробно, чем именно хорошо Apache Parquet и как он отличается от других форматов Big Data. Что такое Apache Parquet и как он...

17Сен
2019

Как связать Apache Kafka и Spark Streaming: 2 способа интеграции Big Data систем

Автор Анна Вичуговав категории Kafka, Spark, Блог

Интеграция Apache Kafka и Spark Streaming, Big Data

Мы уже рассказывали, зачем нужна интеграция Apache Kafka и Spark Streaming. Сегодня рассмотрим, как технически организовать такой Big Data конвейер по непрерывной обработке потоковых данных в режиме реального времени. Способы интеграции Наладить двустороннюю связь между Apache Kafka и Spark Streaming возможны следующими 2-мя способами: получение сообщений через службу синхронизации Zookeeper...

16Сен
2019

Синергия Apache Kafka и Spark Streaming: потоковая обработка Big Data в реальном времени

Автор Анна Вичуговав категории Kafka, Spark, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных, Spark, машинное обучение, Machine Learning

В этой статье мы рассмотрим архитектуру Big Data конвейера по непрерывной обработке потоковых данных в режиме реального времени на примере интеграции Apache Kafka и Spark Streaming. Что такое Spark Streaming и для чего он нужен Spark Streaming – это надстройка фреймворка с открытым исходным кодом Apache Spark для обработки потоковых...

06Сен
2019

Как связаны Apache Kafka и Machine Learning: архитектура Big Data и IoT-систем

Автор Анна Вичуговав категории Internet of Things, Kafka, Spark, Use Cases, Блог

Kafka, Big Data, Большие данные, интернет вещей, IoT, Internet Of Things, архитектура, обработка данных, машинное обучение, Machine Learning, Spark

Рассмотрев основы Apache Kafka, сегодня мы расскажем о месте этого распределённого брокера сообщений в архитектуре Big Data систем. Читайте в нашей статье, какие компоненты Кафка обеспечивают ее использование в программных продуктах машинного обучения (Machine Learning, ML), интернете вещей (Internet Of Things, IoT), системах бизнес-аналитики (Business Intelligence, BI), а также других...

26Дек
2018

В новой версии Apache Spark

Автор Nikolay Komissarenkoв категории Spark, Блог, Статьи

В прошлом месяце Apache Spark выпустили свою последнюю новую версию Apache Spark 2.4.0. Это пятая версия в серии 2.x. В новой версии Apache Spark появляется метод Барьерной синхронизации для лучшей интеграции с системами глубокого обучения. Apache Spark 2.4.0 содержит более 30 встроенных функций и функций более высокого порядка для работы...