Что такое Arenadata Streaming: сочетаем Apache Kafka с NiFi в корпоративном масштабе

Arenadata Streaming Kafka NiFi? Arenadata, Big Data, Большие данные, обработка данных, Kafka, NiFi, архитектура, администрирование, ETL

Мы уже рассказывали про преимущества совместного использования Apache Kafka и NiFi. Сегодня рассмотрим, как эти две популярные технологии потоковой обработки больших данных (Big Data) сочетаются в рамках единого решения от отечественного разработчика — Arenadata Streaming. Читайте далее про основные сценарии использования и ключевые достоинства этого современного продукта класса Event Stream Processing в режиме реального времени.

Что такое Arenadata Streaming и зачем она нужна

Напомним, удобный веб-GUI и обилие готовых обработчиков событий (процессоров) с множеством настроек и поддержкой Python в NiFi отлично дополняют возможности сбора и агрегации потоковых данных Apache Kafka. Комбинация этих Big Data фреймворков дает максимальную гибкость разработчику Data Flow и инженеру Big Data, которые поддерживают этот конвейер обработки данных (data pipeline). Поэтому неудивительно, что именно эти две open-source технологии положены в основу Arenadata Streaming (ADS) – корпоративной платформы потоковых операций с большими данными в режиме онлайн. ADS также может использоваться в качестве корпоративной шины обмена данными, эффективно решая следующие задачи:

  • получение данных в реальном времени из различных внешних систем, включая реляционные и NoSQL-СУБД;
  • агрегация и преобразование потоков данных в распределенном режиме;
  • надежное хранение данных в течение заданного периода времени;
  • возвращение потребителям нужной информации, с автоматической балансировкой нагрузки и изоляцией критически важной информации от несанкционированного доступа.
Arenadata Streaming, Kafka, NiFi
Arenadata Streaming в качестве корпоративной шины данных

Эксплуатация Apache NIFI

Код курса
NIFI3
Ближайшая дата курса
20 января, 2025
Продолжительность
24 ак.часов
Стоимость обучения
72 000 руб.

7 главных преимуществ ADS

Дополнительно к плюсам Apache Kafka и NiFi, о которых мы писали здесь и здесь, ключевыми достоинствами Arenadata Streaming считаются следующие:

  • надежность – в отличие от брокеров сообщений, которые хранят данные до востребования потребителями, информация в ADS доступна в течение всего заданного периода хранения, независимо от факта потребления. Также важно, что ADS предоставляет полную гарантию доставки сообщений за счет строго однократной семантики Exactly Once, реализуемой в Apache Kafka.
  • расширенная интеграция с внешними системами за счет гибко настраиваемых коннекторов. Кроме того, доступ к данным предоставляется сразу для несколько систем с возможностью перечитать информацию заново в случае ошибки.
  • безопасность – ADS поддерживает разграничение прав доступа к потокам данных NiFi, позволяя изолировать критически важную информацию от несанкционированного доступа. Кроме того, в будущие версии ADS планируется включение Apache Ranger – централизованной инфраструктуры для обеспечения, мониторинга и управления комплексной безопасностью данных на платформе Hadoop, а также защищенного протокола Kerberos.
  • высокая производительность за счет использования стандартного бинарного формата сообщений, используемого поставщиком, брокером и потребителем, оптимизации сетевой передачи персистентных блоков журнала.
  • вариативность развертывания и эксплуатации на локальных серверах собственного Big Data кластера, а также гибридная инфраструктура в частном или публичном облаке.
  • официальный статус отечественного программного обеспечения, зарегистрированного в Едином реестре российских программ для электронных вычислительных машин и баз данных Минкомсвязи РФ. Потому Arenadata Streaming отлично подходит для практического применения в проектах цифровизации государственных и муниципальных предприятий России без политических, санкционных и валютных рисков со стороны других государств.
  • низкий порог входа в технологию для администраторов и пользователей благодаря дружественному GUI, а также русскоязычной документации, техподдержке и обучающим курсам.

Администрирование Arenadata Streaming Kafka

Код курса
ADS-KAFKA
Ближайшая дата курса
по запросу
Продолжительность
24 ак.часов
Стоимость обучения
72 000 руб.

Наконец, ADS без проблем интегрируется с другими решениями Arenadata (ADH-Hadoop, QuickMarts, DB), обеспечивая надежное хранение и аналитику больших данных на базе открытых технологий от отечественного разработчика.

Что внутри Arenadata Streaming: состав компонентов

Теперь рассмотрим, из чего, помимо Apache Kafka и NiFi, состоит ADS. В состав текущей версии Arenadata Streaming 1.5, доступной на сентябрь 2020 года, входят следующие компоненты:

  • Arenadata Cluster Manager — универсальный оркестратор гибридного ландшафта, который позволяет быстро устанавливать, настраивать и управлять всеми корпоративными data-сервисами на различных типах инфраструктур: в облаке, on-premise или PaaS. О его новом компоненте, который позволяет управлять кластерами и коннекторами Kafka, читайте здесь.
  • Apache Kafka – Manager, Rest Proxy, KSQL, Schema Registry;
  • Apache Zookeeper – централизованный сервис для поддержки информации о конфигурации, именования, обеспечения синхронизации распределенных приложений и предоставления групповых служб. Почему Zookeeper нужен Kafka и можно ли без него обойтись, мы разбирали здесь.
  • Apache NiFi, включая NiFi Registry и MiNiFi, о котором мы писали в этой статье.

Также, как уже было упомянуто выше, в версию ADS 2.0 и последующие релизы будут включены Apache Ranger и поддержка Kerberos.

Arenadata Streaming, Kafka, NiFi
Компонентный состав Arenadata Streaming

Администрирование кластера Kafka

Код курса
KAFKA
Ближайшая дата курса
12 февраля, 2025
Продолжительность
24 ак.часов
Стоимость обучения
72 000 руб.

Освоить все вышерассмотренные технологии, а также администрирование и эксплуатацию Arenadata Streaming, включая сертификационный экзамен по этой корпоративной платформе потоковой обработки больших данных, вы сможете на авторизованных курсах по Arenadata в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.

Источники

  1. https://arenadata.tech/products/arenadata-streaming/
  2. https://docs.arenadata.io/ads/Intro/index.html
Поиск по сайту