В октябре 2021 года российская компания «Аренадата Софтвер» выпустила новый продукт для аналитики больших данных под брендом Arenadata. Что такое Arenadata LogSearch (ADLS), при чем здесь Elasticsearch и какие потребности закрывает эта корпоративная адаптация open-source технологии полнотекстового поиска от отечественных разработчиков.
Elasticsearch, OpenSearch и Arenadata LogSearch: близнецы или тройняшки?
Среди движков полнотекстового поиска и NoSQL-СУБД open-source проект Elasticsearch считается наиболее популярным и востребованным на практике. Созданная на основе открытой библиотеки Apache Lucene, Elasticsearch является масштабируемой и отказоустойчивой, обеспечивая полнотекстовый поиск по словам и целым фразам на множестве языков, включая восточные. Геопоиск помогает решать задачи, связанные с локациями, а различные фильтры, такие как MLT (More Like This), позволяют гибко задавать условия отбора. Благодаря оперативной индексации новых данных, в т.ч. JSON-документов, найти нужную информацию можно практически в реальном времени. Например, функциональные возможности Elasticsearch отлично подходят для следующих бизнес-сценариев:
- сопоставление покупателей и продавцов, например, поиск пользователей, разместивших объявления о продаже товара в одном районе города, чтобы сообщить об этом тем клиентам, которые ищут подобное предложение в этой местности;
- определять цепочки пользователей со схожими интересами, которые интересуются одними и теми же товарами или товарными категориями, чтобы предложить им сопутствующие предметы как это делают рекомендательные системы интернет-магазинов;
- выявлять тренды спроса на отдельные категории товаров с учетом времени суток и других факторов, чтобы сформировать выгодное комбо-предложение. Например, предлагать услуги грузового такси по партнерской программе тем пользователям, которые интересуются крупногабаритными товарами (мебель, бытовая техника и пр.)
Благодаря широким функциональным возможностям полнотекстового поиска Elasticsearch стал основой целого набора технологий поисковой аналитики и визуализации результатов исследований под названием OpenSearch. OpenSearch – это пакет с открытым исходным кодом на базе Elasticsearch 7.10.2 и Kibana 7.10.2, который включает сервисы поисковой системы и визуализации дэшбордов. Эти технологии лежат в основе Arenadata LogSearch, которая представляет собой не просто ветку open-source проекта под российским брендом, а, как и остальные компоненты линейки Arenadata, адаптированы для корпоративного использования и интегрированы с остальными продуктами вендора. Выпустив ADLS, компания «Аренадата Софтвер» внесла значительный вклад в развитие проекта OpenSearch и стала его первым официальным партнёром в России. Что именно добавлено в Arenadata LogSearch и какова практическая ценность этой адаптации для конечных пользователей, мы рассмотрим далее.
Аналитика больших данных для руководителей
Код курса
BDAM
Ближайшая дата курса
4 декабря, 2023
Длительность обучения
24 ак.часов
Стоимость обучения
66 000 руб.
Цифровизация на отечественных технологиях Big Data: главные плюсы ADLS
Поскольку продукты Arenadata позиционируются как адаптация open-source технологий для корпоративного использования, отметим преимущества Arenadata LogSearch именно в этом контексте:
- регистрация в едином реестре российских программ для ЭВМ и баз данных позволяет применять это ПО в проектах цифровой трансформации государственных организаций;
- сборка на основе проектов под лицензией Apache с открытым исходным кодом без проприетарных компонентов;
- бесшовная интеграция с другими продуктами платформы Arenadata Enterprise Data Platform, включая универсальный менеджер кластеров ADCM;
- готовые утилиты и типовые сервисы установки, администрирования и аудита системы;
- поддержка безопасного доступа к данным с помощью RBAC-аутентификации и авторизации пользователей через Active Directory и OpenID, TLS-шифрование и аудит событий;
- простая интеграция с внешними системами за счет API и плагинов для Java, Python, C++, PHP, JavaScript, Ruby;
- документация и поддержка на русском языке;
- различные варианты развертывания, от bare-metal до публичного облака.
На практике Arenadata LogSearch может использоваться как надежный масштабируемый полнотекстовый поисковый движок, который позволяет хранить большие объёмы данных, искать и анализировать их почти в реальном времени, обеспечивая работу приложений со сложными бизнес-сценариями. Таким образом, ADLS заполняет пробел в линейке продуктов Аренадата, позволяя на единой платформе выстроить следующий аналитический конвейер:
- прием данных из различных источников (IoT-устройства, соцсети, СУБД, файловые системы, мобильные приложения и пр.) в реальном времени в Arenadata Streaming Platform на базе Apache Kafka и NiFi;
- быстрая индексация агрегированных данных о событиях в ADLS;
- загрузка данных в корпоративное озеро на Arenadata Hadoop;
- аналитические запросы к данным и их визуализация на наглядных дэшбордах средствами Arenadata LogSearch и сторонних BI-систем.
Подобный аналитический движок полнотекстового поиска особенно актуален для ритейла, органов власти, компаний государственного и муниципального управления, юридических и консалтинговых предприятий. Поскольку продукт выпущен на рынок совсем недавно, «истории успеха» от довольных клиентов и отзывы об ADLS пока отсутствуют. Однако, возможно уже скоро мы расскажем о реальных кейсах практического использования этого решения в интересных бизнес-задачах.
А пока приглашаем вас на авторизованные курсы по продуктам Arenadata в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:
- Администрирование кластера Hadoop
- Основы Hadoop
- Администрирование кластера Kafka
- Greenplum для инженеров данных
- Администрирование Greenplum / Arenadata DB
- Эксплуатация Arenadata QuickMarts
Источники
- https://arenadata.tech/about/news/produkt-dlya-masshtabiruemogo-polnotekstovogo-poiska
- https://arenadata.tech/products/logsearch
- https://docs.arenadata.io/adls/
- https://opensearch.org