В январе 2023 года компания Arenadata, российский разработчик отечественных Big Data решений, выпустила средство мониторинга и управления коннекторами Apache Kafka для своего продукта Arenadata Streaming (ADS). Знакомимся с возможностями и ограничениями ADSCC.
Arenadata Streaming Command Center для управления коннекторами Kafka
Одной из главных фишек продуктов Arenadata, является ADCM (Arenadata Cluster Manager) — универсальный оркестратор гибридного ландшафта, который позволяет быстро устанавливать и настраивать все сервисы в наглядном веб-GUI. Он имеет модульную структуру и REST API, поэтому его можно использовать не только с Arenadata Hadoop, Arenadata DB, Arenadata Streaming, Arenadata QuickMarts, Arenadata Grid, но и со сторонними сервисами. Благодаря поставке в виде Docker-образа, ADCM можно использовать на любых облачных платформах (Google Cloud Platform, Яндекс.Облако, Mail.ru Cloud Solutions), виртуальных машинах и локальном оборудовании.
Arenadata Streaming Command Center (ADSCC) можно рассматривать как плагин, т.е. подключаемый модуль для ADCM, который упрощает управление кластерами ADS. Напомним, ADS представляет собой масштабируемую отказоустойчивую систему потоковой обработки данных в режиме реального времени на основе Apache Kafka и NiFi. Как и все продукты компании Arenadata, ADS адаптирована для корпоративного использования и управляется с помощью ADCM. Apache Kafka и NiFi используются в ADS вместе под управлением Zookeeper. Приложение NiFi является продюсером или потребителем для Kafka, публикуя данные из внешних источников в топик или, наоборот, считывая их, чтобы передать во внешние системы-приемники.
ADSCC позволяет управлять несколькими кластерами ADS, где развернуты Kafka и интеграционная платформа Kafka Connect. С помощью ADSCC можно создавать, редактировать и удалять коннекторы Kafka к внешним источникам данных и различным приложениям, чтобы настроить передачу данных в реальном времени между различными системами, обеспечить репликацию и аварийное восстановление кластеров Arenadata Streaming.
ADSCC упрощает работу дата-инженеров и администраторов кластера Kafka, избавляя от необходимости вручную создавать файлы конфигурации для интеграционной платформы Kafka Connect. С Arenadata Streaming Command Center создавать и настраивать коннекторы можно прямо из GUI. Также ADSCC обеспечивает оперативный мониторинг сразу нескольких кластеров Kafka Connect и может работать с пользовательскими коннекторами.
Пока в ADS Control можно создавать коннекторы FileStreamSinkConnector, считывающие данные из топика Kafka и выводящие их в локальный файл, и FileStreamSourceConnector, считывающие данные из локального файла и записывающие их в топик Kafka. Также доступны коннекторы к мезанизму репликации данных Mirror Maker 2: MirrorCheckpointConnector, MirrorHeartbeatConnector, MirrorSourceConnector.
Значения конфигураций любого коннектора можно представить в виде JSON-документа, сформировав его прямо в GUI ADS Control. После сохранения данных ADSCC выполняет автоматическую проверку корректности этого JSON-документа.
Поскольку ADSCC обеспечивает мониторинг ADS-кластера, он поддерживает две группы метрик: системные и сервисные, которые отображаются в веб-интерфейсе Graphite в разделе System_metrics и services соответственно. Cистемные метрики показывают общие характеристики хостов кластера и обычно связаны с потреблением ресурсов, например, уровень загруженности CPU, заполнение диска, использование памяти и пр.
Сервисные метрики показывают характеристики сервисов для хостов ADS-кластера. Например, минимальное количество разделов топика для синхронизованных реплик, задержка, число входных/выходных байтов в секунду и пр.
Помимо веб-интерфейса Graphite, который хранит числовые данные временных рядов и отображает графики данных по запросу, для мониторинга метрик ADSCC также использует Grafana. Этот наглядный веб-интерфейс позволяет выполнять запросы данных и подробно визуализировать метрики из Graphite.
В заключение отметим, что ADS Control доступен только в Enterprise-версии, что соответствует самой идее продуктов Arenadata, связанной с ориентацией на корпоративного клиента. Это подтверждают свежие новости о развитии Arenadata Streaming: с 3-го августа экосистема продуктов Arenadata стала доступна клиентам облачного провайдера beeline cloud. Также в 2023 году достигнута полная совместимость с российской платформой Rubbles MLOps Suite, которая выполняет ключевые функции MLOps-платформы: от подготовки данных до продуктивной эксплуатации моделей машинного обучения.
Освойте администрирование и эксплуатацию Apache Kafka для потоковой аналитики больших данных на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:
- Apache Kafka для инженеров данных
- Администрирование кластера Kafka
- Администрирование Arenadata Streaming Kafka
Источники