Мы уже рассказывали про преимущества совместного использования Apache Kafka и NiFi. Сегодня рассмотрим, как эти две популярные технологии потоковой обработки больших данных (Big Data) сочетаются в рамках единого решения от отечественного разработчика — Arenadata Streaming. Читайте далее про основные сценарии использования и ключевые достоинства этого современного продукта класса Event Stream Processing в режиме реального времени.
Что такое Arenadata Streaming и зачем она нужна
Напомним, удобный веб-GUI и обилие готовых обработчиков событий (процессоров) с множеством настроек и поддержкой Python в NiFi отлично дополняют возможности сбора и агрегации потоковых данных Apache Kafka. Комбинация этих Big Data фреймворков дает максимальную гибкость разработчику Data Flow и инженеру Big Data, которые поддерживают этот конвейер обработки данных (data pipeline). Поэтому неудивительно, что именно эти две open-source технологии положены в основу Arenadata Streaming (ADS) – корпоративной платформы потоковых операций с большими данными в режиме онлайн. ADS также может использоваться в качестве корпоративной шины обмена данными, эффективно решая следующие задачи:
- получение данных в реальном времени из различных внешних систем, включая реляционные и NoSQL-СУБД;
- агрегация и преобразование потоков данных в распределенном режиме;
- надежное хранение данных в течение заданного периода времени;
- возвращение потребителям нужной информации, с автоматической балансировкой нагрузки и изоляцией критически важной информации от несанкционированного доступа.
Эксплуатация Apache NIFI
Код курса
NIFI3
Ближайшая дата курса
20 января, 2025
Продолжительность
24 ак.часов
Стоимость обучения
72 000 руб.
7 главных преимуществ ADS
Дополнительно к плюсам Apache Kafka и NiFi, о которых мы писали здесь и здесь, ключевыми достоинствами Arenadata Streaming считаются следующие:
- надежность – в отличие от брокеров сообщений, которые хранят данные до востребования потребителями, информация в ADS доступна в течение всего заданного периода хранения, независимо от факта потребления. Также важно, что ADS предоставляет полную гарантию доставки сообщений за счет строго однократной семантики Exactly Once, реализуемой в Apache Kafka.
- расширенная интеграция с внешними системами за счет гибко настраиваемых коннекторов. Кроме того, доступ к данным предоставляется сразу для несколько систем с возможностью перечитать информацию заново в случае ошибки.
- безопасность – ADS поддерживает разграничение прав доступа к потокам данных NiFi, позволяя изолировать критически важную информацию от несанкционированного доступа. Кроме того, в будущие версии ADS планируется включение Apache Ranger – централизованной инфраструктуры для обеспечения, мониторинга и управления комплексной безопасностью данных на платформе Hadoop, а также защищенного протокола Kerberos.
- высокая производительность за счет использования стандартного бинарного формата сообщений, используемого поставщиком, брокером и потребителем, оптимизации сетевой передачи персистентных блоков журнала.
- вариативность развертывания и эксплуатации на локальных серверах собственного Big Data кластера, а также гибридная инфраструктура в частном или публичном облаке.
- официальный статус отечественного программного обеспечения, зарегистрированного в Едином реестре российских программ для электронных вычислительных машин и баз данных Минкомсвязи РФ. Потому Arenadata Streaming отлично подходит для практического применения в проектах цифровизации государственных и муниципальных предприятий России без политических, санкционных и валютных рисков со стороны других государств.
- низкий порог входа в технологию для администраторов и пользователей благодаря дружественному GUI, а также русскоязычной документации, техподдержке и обучающим курсам.
Администрирование Arenadata Streaming Kafka
Код курса
ADS-KAFKA
Ближайшая дата курса
по запросу
Продолжительность
24 ак.часов
Стоимость обучения
72 000 руб.
Наконец, ADS без проблем интегрируется с другими решениями Arenadata (ADH-Hadoop, QuickMarts, DB), обеспечивая надежное хранение и аналитику больших данных на базе открытых технологий от отечественного разработчика.
Что внутри Arenadata Streaming: состав компонентов
Теперь рассмотрим, из чего, помимо Apache Kafka и NiFi, состоит ADS. В состав текущей версии Arenadata Streaming 1.5, доступной на сентябрь 2020 года, входят следующие компоненты:
- Arenadata Cluster Manager — универсальный оркестратор гибридного ландшафта, который позволяет быстро устанавливать, настраивать и управлять всеми корпоративными data-сервисами на различных типах инфраструктур: в облаке, on-premise или PaaS. О его новом компоненте, который позволяет управлять кластерами и коннекторами Kafka, читайте здесь.
- Apache Kafka – Manager, Rest Proxy, KSQL, Schema Registry;
- Apache Zookeeper – централизованный сервис для поддержки информации о конфигурации, именования, обеспечения синхронизации распределенных приложений и предоставления групповых служб. Почему Zookeeper нужен Kafka и можно ли без него обойтись, мы разбирали здесь.
- Apache NiFi, включая NiFi Registry и MiNiFi, о котором мы писали в этой статье.
Также, как уже было упомянуто выше, в версию ADS 2.0 и последующие релизы будут включены Apache Ranger и поддержка Kerberos.
Администрирование кластера Kafka
Код курса
KAFKA
Ближайшая дата курса
12 февраля, 2025
Продолжительность
24 ак.часов
Стоимость обучения
72 000 руб.
Освоить все вышерассмотренные технологии, а также администрирование и эксплуатацию Arenadata Streaming, включая сертификационный экзамен по этой корпоративной платформе потоковой обработки больших данных, вы сможете на авторизованных курсах по Arenadata в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:
- Администрирование Arenadata Streaming Kafka
- Apache Kafka для инженеров данных
- Эксплуатация Apache NIFI