Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

21Дек
2019

Apache Cassandra и HBase: конкуренты или альтернативы – 10 ключевых сходств и отличий

Автор Анна Вичуговав категории HBase, Блог, Статьи

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra, HBase, Hadoop

Cassandra и HBase считаются наиболее популярными NoSQL-СУБД в мире Big Data. Сегодня мы поговорим, что между ними общего и чем отличаются эти нереляционные базы данных, сравнив их по 10 ключевым параметрам: от архитектуры до инструментальных средств. Что общего между Apache Cassandra и HBase: 5 главных сходств Прежде всего отметим, чем...

19Дек
2019

Как Apache Cassandra, Kafka, Storm и Hadoop формируют рекомендации пользователям Spotify

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra, HBase, машинное обучение, Machine Learning, Spark, Kafka, предиктивная аналитика, Hadoop

Продолжая разговор про примеры практического использования Apache Cassandra в реальных Big Data проектах, сегодня мы расскажем вам о рекомендательной системе стримингового сервиса Spotify на базе этой нереляционной СУБД в сочетании с другими технологиями больших данных: Kafka, Storm, Crunch и HDFS. Рекомендательная система Spotify: зачем она нужна и что должна делать...

18Дек
2019

10 примеров применения Apache Cassandra в 5 направлениях Big Data

Автор Анна Вичуговав категории Internet of Things, Kafka, Machine Learning, Spark, Use Cases, Блог

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra, HBase, Internet of Things, IoT, IIoT, интернет вещей, машинное обучение, Machine Learning, Spark

Благодаря быстроте, надежности и другим достоинствам Apache Cassandra, эта распределенная NoSQL-СУБД широко применяется во многих Big Data проектах по всему миру. В этой статье мы собрали для вас несколько интересных примеров реального использования Кассандры в 5 ключевых направлениях современного ИТ. Где используется Apache Cassandra: 5 главных приложений c примерами Промышленные...

17Дек
2019

Как работает Apache Cassandra: запись, чтение и другие операции с Big Data в распределенной NoSQL-СУБД

Автор Анна Вичуговав категории Блог, Статьи

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra, HBase

В прошлой статье мы разобрали, как настраиваемые уровни согласованности влияют на скорость работы с данными в Apache Cassandra. Сегодня поговорим, как в этой нереляционной базе данных выполняются операции записи, чтения, уплотнения и удаления. Читайте в нашей статье, что такое memTable, SSTable и Bloom-фильтр, благодаря которым рассматриваемая распределенная NoSQL-СУБД может обработать...

16Дек
2019

Раз-два-много: уровни согласованности Apache Cassandra при распределенной обработке Big Data

Автор Анна Вичуговав категории Блог, Статьи

Big Data, Большие данные, архитектура, обработка данных, NoSQL, SQL, Cassandra

Как мы уже отмечали, одним из преимуществ Кассандры является возможность задания уровня согласованности для операций чтения и записи данных. В этой статье рассмотрим, какие бывают уровни согласованности для этих процессов в Apache Cassandra, и как они влияют на скорость работы распределенной NoSQL-СУБД при ее эксплуатации в реальных Big Data проектах....

15Дек
2019

ТОП-10 достоинств и 5 главных недостатков Apache Cassandra

Автор Анна Вичуговав категории Блог, Статьи

Продолжая тему нереляционных хранилищ данных, сегодня мы поговорим о главных плюсах и минусах Apache Cassandra. Читайте в нашем материале, чем хороша эта отказоустойчивая распределенная NoSQL-СУБД и с какими проблемами можно столкнуться при ее использовании в реальном Big Data проекте. Чем хороша Кассандра: 10 ключевых преимуществ Начнем с положительных моментов. Благодаря...

14Дек
2019

7 основных преимуществ и пара недостатков Apache HBase для Big Data систем

Автор Анна Вичуговав категории HBase, Use Cases, Блог, Статьи

Big Data, Большие данные, архитектура, обработка данных, Hadoop, SQL, NoSQL, HBase, Caasandra, Hive, Impala

В этой статье мы поговорим про ключевые достоинства и недостатки Apache HBase, а также рассмотрим наиболее интересные примеры практического использования этой нереляционной распределенной СУБД в крупных Big Data проектах. Достоинства и недостатки одной из самых популярных NoSQL СУБД для Big Data Прежде всего, отметим, что Apache HBase и Cassandra считаются...

10Ноя
2019

12 уровней IIoT-архитектуры: от периферийных датчиков до аналитики Big Data

Автор Анна Вичуговав категории Kafka, Machine Learning, Spark, Use Cases, Блог

Big Data, Большие данные, Internet of Things, IoT, IIoT, интернет вещей, архитектура, Kafka, обработка данных, Spark, машинное обучение, Machine Learning

Мы уже рассматривали типовую архитектуру систем Internet of Things (IoT). Сегодня поговорим подробнее про уровневую модель передачи и обработки данных от конечных устройств до облачных IoT-платформ, а также приведем примеры наиболее популярных средств обеспечения каждого из уровней этой сложной архитектуры Industrial Internet of Things, включая инструменты Big Data. Многоуровневый IIoT:...

01Ноя
2019

Блеск и нищета главной технологии Big Data: достоинства и недостатки MapReduce

Автор Анна Вичуговав категории Spark, Блог

Big Data, Большие данные, архитектура, обработка данных, Spark, Hadoop

MapReduce можно назвать основой Big Data, т.к. именно данная технология позволяет обрабатывать огромные массивы информации параллельно в распределенных кластерах. Эту вычислительную модель поддерживают множество различных коммерческих и свободных продуктов: Apache Hadoop, Spark, Greenplum, Hive, MongoDB, Phoenix, DryadLINQ и прочие Big Data фреймворки и библиотеки, написанные на разных языках программирования [1]. Сегодня...

27Окт
2019

Apache Kafka Streams, Spark Streaming, Flink, Storm или Samza: что и когда выбирать для обработки потоков Big Data

Автор Анна Вичуговав категории Flink, Kafka, Spark, Блог

Big Data, Большие данные, архитектура, обработка данных, Spark

Проанализировав сходства и различия пяти самых популярных Big Data фреймворков для распределенных потоковых вычислений (Apache Kafka Streams, Spark Streaming, Flink, Storm и Samza), в этой статье мы сравним их по 10 критериям и отметим, какие именно факторы являются наиболее значимыми для объективного выбора. Сравнительный анализ самых популярных фреймворков потоковой обработки...

26Окт
2019

Сходства и различия популярных Big Data фреймворков распределенной потоковой обработки: сравниваем Apache Kafka Streams, Spark Streaming, Flink, Storm и Samza

Автор Анна Вичуговав категории Flink, Kafka, Spark, Блог

Big Data, Большие данные, архитектура, обработка данных, Spark, Kafka

В этой статье мы рассмотрим, чем похожи и чем отличаются 5 самых популярных инструментов распределенной обработки потоков Big Data: Apache Kafka Streams, Spark Streaming, Flink, Storm и Samza, а также поговорим про наиболее значимые факторы выбора между этими программными средствами. 5 общих характеристик распределенных Big Data фреймворков потоковой обработки Прежде...

19Окт
2019

Где и как используется Apache Samza: реальные примеры Big Data проектов

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Big Data, Большие данные, архитектура, обработка данных, Spark, Hadoop, Kafka

Apache Samza часто сравнивают с другими Big Data фреймворками распределенных потоковых вычислений в реальном времени (Real Time, RT): Kafka Streams, Spark Streaming, Flink и Storm. Apache Spark и Flink обладают практически одинаковым набором функциональных возможностей и компонентов, поэтому их можно сравнивать между собой более-менее объективно. Apache Samza является более простой...

17Окт
2019

Где и как в Big Data используется Apache Storm: примеры применения

Автор Анна Вичуговав категории Kafka, Spark, Блог

Apache Storm, Big Data, Большие данные, архитектура, обработка данных, Spark, Hadoop, Kafka

Apache Storm (Сторм, Шторм) часто употребляется в контексте других BigData инструментов для распределенных потоковых вычислений в реальном времени (Real Time, RT): Spark Streaming, Kafka Streams, Flink и Samza. Однако, если Apache Spark и Flink по функциональным возможностям и составу компонентов еще могут конкурировать между собой, то сравнивать с ними Шторм,...

15Окт
2019

Apache Flink vs Spark: что и когда выбрать для потоковой обработки Big Data

Автор Анна Вичуговав категории Flink, Spark, Use Cases, Блог

Flink vs Spark, Big Data, Большие данные, архитектура, обработка данных, Apache Spark

Flink часто сравнивают с Apache Spark, другим популярным инструментом потоковой обработки данных. Оба этих распределенных отказоустойчивых фреймворка с открытым исходным кодом используются в высоконагруженных Big Data приложениях для анализа данных, хранящихся в кластерах Hadoop [1] и других кластерных системах. В этой статье мы поговорим, чем похожи и чем отличаются Флинк и Спарк, а...

14Окт
2019

Что выбрать для потоковой обработки Big Data: Apache Kafka Streams или Spark Streaming

Автор Анна Вичуговав категории Kafka, Spark, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных, Spark

Проанализировав сходства и различия Apache Kafka Streams и Spark Streaming, можно сделать некоторые выводы относительно выбора того или иного решения в качестве основного инструмента потоковой обработки Big Data. В этой статье мы собрали для вас аргументы в пользу Кафка Стримс и Спарк Стриминг в конкретных ситуациях, а также нашли некоторые...

13Окт
2019

ТОП-7 сходств и различий между Apache Kafka Streams и Spark Streaming

Автор Анна Вичуговав категории Kafka, Spark, Блог

Сегодня мы рассмотрим популярные Big Data инструменты обработки потоковых данных: Apache Kafka Streams и Spark Streaming: чем они похожи и чем отличаются. Стоит сказать, что Спарк Стриминг и Кафка Стримс – возможно, наиболее популярные, но не единственные средства обработки информационных потоков Big Data. Для этой цели существует еще множество альтернатив,...

10Окт
2019

Путешествуем во времени и пользовательском пространстве с Apache Kafka Streams

Автор Анна Вичуговав категории Kafka, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных, Кафка Стримс

В этой статье мы продолжим говорить про основы Apache Kafka Streams для начинающих и рассмотрим одно из самых важных свойств Кафка – возможность обработки любых данных, накопленных с начала работы Big Data системы. Что такое окна Apache Kafka Streams и зачем они нужны Кафка обеспечивает объективную достоверность накопленных исторических данных...

09Окт
2019

DSL и Processor API в Apache Kafka Streams для распределенной обработки потоковых данных

Автор Анна Вичуговав категории Kafka, Блог

Kafka, Big Data, Большие данные, архитектура, обработка данных

Как мы уже писали, в Apache Kafka Streams таблица и поток данных – это базовые и взаимозаменяемые понятия. Сегодня поговорим о том, как работать с этими объектами Big Data с помощью внутренних средств Кафка Стримс, используя готовые методы высокоуровневого языка DSL и низкоуровневый API-интерфейс для распределенной обработки потоковых данных в...

07Окт
2019

Как работает Apache Kafka Streams: архитектура и топология внутренних обработчиков потоков

Автор Анна Вичуговав категории Kafka, Блог

В продолжение темы про основы Apache Kafka Streams для начинающих, сегодня мы поговорим про то, как абстрактные понятия топика (topic), таблицы (table) и потока (stream) позволяют распараллелить обработку информационных потоков. Читайте в нашем новом материале, что такое обработчики потоков Кафка Стримс, как они обрабатывают разделы топиков (topic partition) Kafka и...

06Окт
2019

Основы Apache Kafka Streams: чем отличаются потоки от таблиц и топиков

Автор Анна Вичуговав категории Kafka, Блог

Сегодня мы поговорим про базовые понятия Apache Kafka Streams: потоки, таблицы и топики Кафка. Читайте в нашей статье, как Stream, Table и Topic связаны между собой, чем они похожи, когда таблица становится потоком и почему это обеспечивает эластичность и отказоустойчивость распределенных потоковых приложений Big Data. Что такое таблица, топик и...