Курсы Big Data,Arenadata,Greenplum, Kafka и Spark

18Фев
2021

Apache Kafka 2.7.0: ТОП-15 обновлений декабря 2020 года

Kafka, Zookeeper, курсы Kafka, обучение Apache Kafka, курсы ksql, обучение ksqlDB, Kafka Streams обучение, Big Data, Большие данные, обработка данных

В конце декабря 2020 года вышел новый релиз Apache Kafka – главной Big Data технологии для потоковой передачи событий, интеграции распределенных систем и аналитики больших данных. Читайте далее о новых функциональных возможностях и исправленных ошибках в свежей версии 2.7.0: еще один шаг к отказу от Zookeeper, генерация уведомительных исключений и улучшения...

13Фев
2021

Apache Hadoop 3.2.2 – свежий релиз 2021: краткий обзор главной технологии Big Data

Автор Анна Вичуговав категории Блог, Статьи

курсы Hadoop, Apache Hadoop Обучение, бесплатный тест по большим даннымBig Data, Большие данные, обработка данных, архитектура, Spark, Kafka, Hive, HDFS, Hadoop

Месяц назад, в начале января 2021 года вышел новый релиз Apache Hadoop 3.2.2. Читайте далее, чего ждать от самой главной технологии Big Data, какие ошибки исправлены, зачем внесены изменения и кому они будут особенно полезны. 7 главных обновлений Apache Hadoop 3.2.2 Этот второй выпуск версии 3.2 содержит 516 исправлений ошибок,...

28Янв
2021

Apache Kafka или Pulsar: что и когда выбирать

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

курсы по Kafka, обучение Kafka, курсы администрирования Kafka, Apache Kafka для администраторов, обработка данных, большие данные, Big Data, архитектура, Kafka, Pulsar

В заключение цикла статей о сравнении Apache Kafka с Pulsar, сегодня мы перечислим, когда следует предпочесть второй вариант для построения распределенных масштабируемых систем потоковой аналитики больших данных. Также читайте далее, с какими ограничениями придется мириться в случае выбора этого Big Data фреймворка. 5 случаев, когда Apache Pulsar лучше Kafka При...

21Янв
2021

Что такое Apache Pulsar: новая Kafka или улучшенный RabbitMQ для потоков Big Data

Автор Анна Вичуговав категории Kafka, Блог

курсы по Apache Kafka, Kafka Streams для разработчиков, обучение Kafka Streams, обработка данных, большие данные, Big Data, архитектура, Kafka, Apache Pulsar, RabbitMQ

Продвигая наши обновленные курсы по Kafka, сегодня рассмотрим, почему в последнее время эту Big Data платформу потоковой обработки событий стали активно сравнивать с Apache Pulsar. Читайте далее, как устроен этот молодой, но интересный фреймворк потоковой обработки больших данных, чем он отличается от Kafka и RabbitMQ, что между ними общего и...

05Июн
2020

За что все его так любят: ТОП-5 достоинств ClickHouse для Big Data

Автор Анна Вичуговав категории ClickHouse, Use Cases, Блог, Статьи

g Data, Большие данные, обработка данных, архитектура, SQL, ClickHouse, DWH, Kafka, Zookeeper, Hive, Hadoop

Сегодня рассмотрим основные преимущества ClickHouse – аналитической СУБД от Яндекса для обработки запросов по структурированным большим данным в реальном времени. Читайте в нашей статье, чем еще хорош Кликхаус, кроме высокой скорости, и почему эту систему так любят аналитики, разработчики и администраторы Big Data. Чем хорош ClickHouse: главные преимущества Напомним, основным...

01Июн
2020

ClickHouse + Kafka: 5 примеров совместного использования и особенности интеграционного движка

Автор Анна Вичуговав категории ClickHouse, Kafka, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, SQL, Arenadata, Kafka, ClickHouse, Zookeeper

В этой статье рассмотрим интеграцию ClickHouse с Apache Kafka: когда и зачем она нужна, как связать эти две Big Data системы, каковы ограничения и недостатки существующих способов и каким образом их можно обойти. Также разберем, почему кластер Кликхаус использует Zookeeper и что такое материализованное представление таблицы Кафка. Big Data маркетинг,...

27Май
2020

Как связать Greenplum и Kafka: 2 способа интеграции и коннектор Arenadata DB

Автор Анна Вичуговав категории Greenplum, Internet of Things, Kafka, Use Cases, Блог

Big Data, Большие данные, обработка данных, архитектура, SQL, Greenplum, Arenadata, Kafka, интеграция Гринплам и Кафка

Мы уже рассказывали про интеграцию Tarantool с Apache Kafka на примере Arenadata Grid. Сегодня рассмотрим, как интегрировать Кафка с MPP-СУБД Greenplum и каковы ограничения каждого из существующих способов. Читайте в сегодняшнем материале, что такое GPSS, PXF и при чем тут Docker-контейнер с коннектором Кафка для Arenadata DB. IoT и не...

25Фев
2020

Как работает Apache Zookeeper: 5 проблем самой популярной службы синхронизации для распределенных Big Data систем

Автор Анна Вичуговав категории Kafka, Use Cases, Блог

Apache Zookeeper, Зукипер, Big Data, Большие данные, архитектура, Hadoop, HBase, Kafka, администрирование

Однажды мы уже рассматривали, зачем Apache Kafka, Hadoop, HBase и другие Big Data системы используют Zookeeper, почему он необходим в распределенных проектах и чем можно заменить его заменить. Сегодня поговорим о том, как работает этот популярный централизованный сервис для поддержки информации о конфигурации, именования, обеспечения синхронизации распределенных приложений и предоставления...

13Фев
2020

Как ускорить работу producer’ов Kafka: параметры конфигурации производителей

Автор Анна Вичуговав категории Kafka, Блог

Big Data, Большие данные, Kafka, архитектура

Вчера мы рассказывали, от чего зависит скорость работы Apache Kafka и как можно повысить. Сегодня рассмотрим подробнее, как именно конфигурация отправителей (производителей, producers) сообщений влияет на общую производительность этой распределенной Big Data системы потоковой агрегации событий. Что такое конфигурация производителей Apache Kafka Напомним, общая производительность Кафка зависит от следующих факторов:...

30Янв
2020

Зачем Apache Kafka и другие Big Data системы используют Zookeeper и чем его заменить

Автор Анна Вичуговав категории Kafka, Блог

Big Data, Большие данные, Kafka, Hadoop, HBase

Рассматривая практическое обучение Kafka, сегодня мы поговорим, зачем нужен Zookeeper и можно ли использовать Кафка без этой централизованной службы синхронизации распределенных сервисов. Читайте в нашей статье о роли Zoo в системах обработки больших данных (Big Data) и о том, может ли Apache Kafka эффективно работать без Zookeeper, а также как...