В этой статье для дата-инженеров рассмотрим, что такое Cloudera Flow Management и как это позволяет ускорить аналитику больших данных в кейсах информационной безопасности. Читайте далее о преимуществах SIEM-анализа, преобразования и распределения security-событий с помощью Apache NiFi и его легковесного агента MiNiFi для устройств интернета вещей (Internet Of Things, IoT).
Что такое SIEM и причем здесь озеро данных с ETL
Промышленные предприятия анализируют и отслеживают не только бизнес-показатели, но и техническую информацию с датчиков, данные с IoT-устройств, логи прикладных систем и пр., собирая все это в озеро данных (Data Lake). Оттуда данные для анализа потребляют различные приложения: инструменты ETL, поисковые и BI-системы, а также базы данных. Подобная архитектура изначально ориентирована на последовательный и предсказуемый поток данных для обработки. Но на практике потоки промышленных данных бывают непредсказуемы, а требования к их обработке могут меняться и быстро усложняться в процессе использования. Как это бывает с IoT-устройствами, мы разбирали вчера на примере кейса компании Tesla. Поэтому необходимость просеивать петабайты информации в поиске нужных данных снижает производительность аналитики и мешает своевременному получению полезных бизнес-сведений [1].
Эксплуатация Apache NIFI
Код курса
NIFI3
Ближайшая дата курса
25 сентября, 2024
Продолжительность
24 ак.часов
Стоимость обучения
72 000 руб.
Одна из главных проблем современного Data Management – это сложности в быстром поиске необходимых данных из огромного количества накопленной информации. Особенно это важно для управления информационной безопасностью, когда речь идет об оперативном обнаружении киберугроз и рисках раскрытия конфиденциальных данных, что может привести к многомиллионым штрафам. Поэтому направление SIEM (Security information and event management) сегодня активно развивается, включая управление информацией о безопасности и управление событиями безопасности. SIEM в реальном времени обеспечивает security-анализ данных от сетевых и IoT-устройств, а также приложений, чтобы реагировать на них до наступления существенного ущерба. SIEM-система собирает данные информационной безопасности из разных источников, агрегирует их и выполняет автоматизированный анализ, в т.ч. с использованием алгоритмов машинного обучения и других методов искусственного интеллекта. Результаты обработки представляется в едином интерфейсе для аналитиков безопасности, облегчая изучение характерных особенностей для различных инцидентов с целью принятия корректирующих действий еще до того, как ситуация станет критической. Современные SIEM-системы имеют распределенную архитектуру и состоят из источников и хранилищ данных, а также сервера приложений. Сегодня наиболее популярными SEIM-системами считаются Splunk, о котором мы рассказывали здесь, IBM Tivoli и LogRhythm. На российском рынке популярны следующие отечественные решения: KOMRAD Enterprise SIEM, Security Capsule, MaxPatrol SIEM, RUSIEM [2].
Чтобы продемонстрировать важность SIEM в реальном секторе, рассмотрим пример промышленной компании, которая ежедневно собирает, преобразует и распределяет более сотни терабайт данных из логов своих компьютеров, серверов и приложений. По мере перехода на гибридную и мультиоблачную стратегию, необходимо также собирать эти логи из облачных приложений, серверов и сетевых журналов. При этом возникли следующие проблемы [1]:
- огромный объем данных по кибербезопасности затрудняет их оперативный анализ и снижает скорость своевременной поставки в место требования;
- типовые возможности SIEM-системы иногда не позволяют проводить специальный анализ данных, а их перенос в другое приложение обходится слишком дорого;
- стоимость лицензии на приложение и инфраструктуры растет быстрее, чем способность эффективно обнаруживать важные security-события.
С точки зрения SIEM любое устройство может записывать действия пользователя (вход, изменение пароля и пр.), большинство из которых являются обычными ежедневными событиями. Поэтому специалисты кибербезопасности обращают внимание только на необычные действия. Для оперативного анализа данных в реальном времени требуется не собирать каждое отдельное событие и с последующим разбором в пакетном режиме, а сразу идентифицировать важные точки по мере их сбора. Таким образом, необходим переход от пакетных ETL/ELT-процессов озера данных к потоковой парадигме обработки данных в реальном времени. Как это сделать с Apache NiFi в рамках решения Cloudera Edge and Flow Management, мы рассмотрим далее.
Cloudera Edge and Flow Management на базе Apache NiFi и MiNiFi
Для управления потоками данных от периферии к облаку корпорация Cloudera предлагает платформу Cloudera DataFlow (CDF) на базе Apache NiFi. Она обеспечивает крупномасштабный прием, преобразование и управление данными для предприятий из любых сред, включая перемещение данных, прием логов и получение всех типов потоковых данных, в т.ч. из соцсетей, мобильных и IoT-устройств, а также данных о поведении пользователей на веб-сайтах (клики, просмотры и пр.). Подробнее о Cloudera DataFlow Management читайте в нашей новой статье.
Для конечных устройств CDF использует конечных MiNiFi-агентов и концентратора конечного управления Edge Flow Manager. Он управляет, контролирует и отслеживает конечных агентов, чтобы собирать данные с периферийных устройств и передавать команды обратно на периферию. Это особенно актуально для IoT-кейсов, включая профилактическое обслуживание, управление парком и отслеживание активов. Поскольку основным компонентом CDF является Apache NiFi, это обеспечивает следующие возможности [3]:
- интуитивно понятный графический интерфейс без кода — сотни готовых процессоров для подключения к множеству источников данных, устройств и протоколов. Пользовательский UI позволяет легко создавать сложные конвейеры потока данных простым перетаскиванием и соединением процессоров на холсте.
- происхождение данных их атрибуция по мере перемещения по предприятию позволяет понять влияние любой системы из производственной ИТ-инфраструктуры на любую точку данных. Информация о происхождении данных создается для каждой операции на детальном уровне, даже если записи меняются до и после события.
- расширяемая архитектура – более 450 готовых процессоров NiFi с возможностью написать собственный и настраиваемой панелью мониторинга позволяют принимать, собирать и доставлять данные в режиме реального времени из любого источника потоковой передачи.
- вертикальное и горизонтальное масштабирование дает возможность управлять любой пропускной способностью, перемещая петабайты данных из одного ЦОД в другой всего за несколько часов, или между локальной средой и облаком.
- безопасность корпоративного уровня и модели DevOps благодаря NiFi Registry, позволяющего быстрее доставлять потоковые приложения и легко развертывать в разных средах, поддерживая версионирование потоков и разные схемы движения данных.
- управление конечными устройствами и сбор данных с помощью команд, контроля и мониторинга сотен тысяч агентов с минимальными затратами на сбор, фильтрацию и обработку данных с помощью ML-алгоритмов и автоматизированных циклов машинного обучения.
Эксплуатация Apache NIFI
Код курса
NIFI3
Ближайшая дата курса
25 сентября, 2024
Продолжительность
24 ак.часов
Стоимость обучения
72 000 руб.
В рассматриваемом кейсе промышленной компании на каждом рабочем компьютере, сервере, сети и приложении от локального до общедоступного облака был развернут Cloudera Edge Management, который включает легковесный агент Apache MiNiFi для сбора данных из логов. Это обеспечивало доставку данных в Cloudera Flow Management. Входящий в состав CDF-платформы Apache NiFi обеспечивал фильтрацию, преобразование и распределение наиболее важных потоков данных в SIEM, а остальных – в общедоступное облако для дальнейшего анализа. Такая возможность управлять распределением и преобразованием данных в самом начале потокового конвейера существенно повысила производительность всех аналитических приложений. В частности, контролируя обработку потоков данных, специалисты по кибербезопасности на 55% повысили скорость поиска угрожающих событий в Splunk и смогли быстрее выявлять потенциальные случаи мошенничества. Другой пример: ранее антифрод-системе требовалось 70 минут для выявления злоумышленника, получающего несанкционированный доступ, и дополнительное время для обнаружения вторжения. Благодаря Cloudera Flow Management с механизмом обработки потоков среднее время обнаружения событий снизилось в 10 раз – до 7 минут, что на 90% быстрее, чем реакция на вторжение. А сокращение объема поступающих данных помогло сэкономить, уменьшив затраты на инфраструктуру и лицензирование на 30% [1]. Как создать и развернуть Docker-образ Apache MiNiFi на Raspberry PI4 ARM64, читайте в нашей новой статье.
Больше интересных примеров и практических тонкостей администрирования и использования Apache NiFi для современной дата-инженерии вы узнаете на специализированных курсах для разработчиков, ИТ-архитекторов, инженеров данных, администраторов, Data Scientist’ов и аналитиков Big Data в нашем лицензированном учебном центре обучения и повышения квалификации в Москве:
Источники