10 октября 2022 года вышел очередной релиз Apache NiFi. Разбираемся с его ключевыми новинками: провайдеры параметров, подключаемый реестр клиентов, новые процессоры и улучшения протокола MQTT. Самые главные фичи свежего выпуска для дата-инженера и администратора кластера Apache NiFi.
ТОП-7 новых фич свежего релиза
Будучи популярным инструментов современной дата-инженерии, Apache NiFi активно развивается. Всего несколько месяцев прошло с предыдущего выпуска, о котором мы писали здесь, а разработчики уже выложили новый релиз в открытый доступ. В версии 1.18.0 Apache NiFi более 20 новых фичей, а также около сотни исправленных ошибок и улучшений.
Ключевыми аспектами выпуска 1.18.0 можно назвать следующие:
- Провайдеры параметров – чтобы не хранить конфиденциальные данные, такие как пароли и другие определения потока данных в NiFi, можно использовать провайдеров параметров, таких как HashiCorp Vault, внешняя база данных, AWS или GCP Secrets Management. Вскоре этот список будет расширен, в частности, ожидается добавление Azure и прочих провайдеров.
- Реестр подключаемых клиентов, чтобы использовать репозитории git в качестве версионируемого реестра потоков данных.
- Процессор CompressContent теперь поддерживает ZStd и Brotli. Этот процессор сжимает или распаковывает содержимое потоковых файлов с помощью заданного пользователем алгоритма сжатия и соответствующим образом обновляет атрибут type. Он эффективно использует память, позволяя обрабатывать очень большие объекты, выходящие далеко за пределы размера JVM-кучи. Напомним, Blotli считается очень перспективным алгоритмом сжатия данных с открытым исходным кодом. Он основан на современном варианте алгоритма LZ77, энтропийном кодировании Хаффмана и моделировании контекста 2-го порядка. Сегодня blotli активно набирает обороты в сфере интернета вещей, поэтому неудивительно, что Apache NiFi внедрил поддержку этого алгоритма.
- Добавлен целый ряд новых процессоров для вывода списка и выборки данных с использованием SMB, QueryAirtable, просмотра и извлечения данных из Dropbox, Workday, Zendesk и HubSpot;
- Реализован новый компонент AzureEventHubRecordSink для использования хаба событий Azure в качестве приемника записей;
- добавлена возможность настройки длительности выполнения процессоров по умолчанию;
- улучшено взаимодействие с протоколом MQTT – теперь можно публиковать данные, используя эффективный и гибкий механизм записи. Напомним, MQTT — это облегченный протокол обмена сообщениями публикации/подписки, который идеально подходит для подключения удаленных устройств с небольшим объемом кода и минимальной пропускной способностью сети. В 2013 году MQTT стал стандартным протоколом обмена сообщениями OASIS для Интернета вещей (IoT). В Apache NiFi18 поддерживается протокол v5 для существующих процессоров MQTT, используя клиентскую библиотеку HiveMQ. Для версий протокола 3.1.x применяется библиотека Paho, что безопаснее клиент HiveMQ в этом случае. Подробнее об этом читайте в нашей новой статье.
Наконец, обновлено множество зависимостей для улучшения безопасности и поведения Apache NiFi, исправлена масса ошибок и улучшена производительность кластера.
Кроме вышеотмеченных новых фич, реализовано стандартное логирование устаревших возможностей, поскольку из-за непрерывного выпуска новых версий и многочисленных улучшений некоторые участки кода стали устаревшими. Хотя эти устаревшие классы, методы и свойства все еще необходимы для обеспечения совместимости при обновлении между минорными релизами, разработчикам и пользователям сложно отслеживать все случаи их использования. Поэтому в Apache NiFi 1.18 реализовано стандартное ведение журнала для устаревших фичей. Конфигурация логирования по умолчанию включает новый файл журнала, посвященный устаревшим шаблонам использования. Реализация предоставляет стандартное ведение журналов SLF4J и общий стандарт для имен регистраторов. Этот подход упрощает добавление предупреждений журнала устаревания во все приложение, а также облегчает пользователям определение того, используются ли в их конфигурации устаревшие функции.
Кроме того, наличие специального журнала для устаревших фичей обеспечит администратору системы простой способ определить, можно ли обновить данную установку NiFi до будущих мажорных релизов. О том, что появилось нового и интересного в выпуске 1.19, мы рассказываем здесь.
Освойте администрирование и эксплуатацию Apache NiFi для построения эффективных ETL-конвейеров потоковой аналитики больших данных на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:
Источники