Arenadata — российская ИТ-компания, разработчик первых отечественных Big Data решений, основанных на свободном программном обеспечении с открытым исходным кодом без использования проприетарных компонентов:
- Arenadata Hadoop (ADH) – полноценный дистрибутив распределенной платформы хранения больших данных на базе Apache Hadoop, адаптированный для корпоративного использования и зарегистрированный в государственном реестре программ для ЭВМ;
- Arenadata DB (ADB) – распределенная масштабируемая отказоустойчивая СУБД на базе аналитической массивно-параллельной системы с открытым исходным кодом Greenplum, адаптированная для российского использования и зарегистрированная в государственном реестре программ для ЭВМ;
- Arenadata Streaming (ADS) – эффективное масштабируемое отказоустойчивое решение для потоковой обработки данных в режиме реального времени, зарегистрированное в государственном реестре программ для ЭВМ, адаптированное для корпоративного использования и построенное на базе проектов с открытым исходным кодом – Apache Kafka и Apache Nifi.
- Arenadata Cluster Manager (ADCM) — платформа для эффективного развертывания и управления всеми data-сервисами компании независимо от используемой инфраструктуры – в облаке, on-premise или в качестве PaaS-сервисов.
- Arenadata Grid (ADG) — платформа вычислений в памяти, которая позволяет значительно ускорить приложения без необходимости замены существующих СУБД.
- Arenadata QuickMarts (ADQM) — кластерная колоночная система управления базами данных (СУБД) для быстрого анализа больших объёмов данных при одновременном снижении нагрузки на системы их хранения.
- Analytic Workspace (AAW) — платформа быстрого развертывания программного обеспечения для DataScience/BI на базе Apache Zeppelin, а также начального обучения по работе с сервисом аналитиков и администраторов.
Далее мы рассмотрим подробнее ключевые компоненты экосистемы Arenadata: Arenadata Hadoop, Arenadata DB и Arenadata Streaming, community-версии которых используются на практических занятиях наших учебных курсов в Школе Больших Данных.
Что такое Arenadata Hadoop
Arenadata Hadoop (ADH) — это полноценный дистрибутив распределенной платформы хранения и обработки больших данных на базе Apache Hadoop, включая средства управления сервисами, анализа информации, инструменты обеспечения безопасности, брокеры сообщений и потоковую обработку.
В 2016 году дистрибутив ADH прошел сертификацию на соответствие требованиям спецификации ODPi Run Time Compliant (ODPi) [1] и получил подтверждение о полном соответствии стандартам ODPi – крупнейшего мирового сообщества разработчиков проектов хранения больших данных с открытым кодом под эгидой Linux Foundation [2].
Что такое Arenadata DB
Arenadata DB (ADB) – это масштабируемая кластерная СУБД на базе аналитической массивно-параллельной системы с открытым исходным кодом Greenplum. Концепция MPP (massively parallel processing, массивно-параллельные вычисления) позволяет надежно хранить и быстро анализировать большие объемы структурированных и слабоструктурированных данных (до сотен терабайт).
В ADB используется полиморфное хранение данных, когда одну таблицу можно разделить на вертикальные разделы (partitions), часть из которых будет храниться в виде строк, а часть – как колоночные объекты. При этом для пользователя такая таблица остается одним объектом [1].
Информационная безопасность хранения и передачи данных в ADB обеспечивается поддержкой защищенного протокола SSL и шифрованием с помощью ключей PGP (на уровне таблиц или колонок в таблицах), а также ролевой модели доступа к данным (Role Based Access Control, RBAC). Гибкость и производительность при обмене данными с внешними системами реализуется за счет протокола параллельного обмена PXF (Platform eXtension Framework), который обеспечивает взаимодействие с внешней системой одновременно всех сегментов кластера. Отказоустойчивость распределенной СУБД достигается за счет настраиваемой системы резервирования [1].
Что такое Arenadata Streaming
Arenadata Streaming (ADS) – это отказоустойчивая масштабируемая система потоковой обработки распределенных данных в режиме реального времени, разработанная на базе проектов с открытым исходным кодом – Apache Kafka и Apache Nifi. ADS интегрируется со множеством сторонних систем (Elasticsearch, SAP HANA, Vertica, Couchbase, Cassandra, CouchDB, IBM MQ и пр.) с помощью широкого набора коннекторов и API-интерфейсов.
Инструментарий транзакционных журналов, гибкие механизмы контроля доступа к данным и обеспечения консистентности при потоковой передаче в режиме реального времени гарантируют безопасность хранения и обработки корпоративной информации. ADS может использоваться в качестве корпоративной шины обмена данными для всех бизнес-приложений путем решения следующих задач [1]:
- публикация и подписка на потоковую передачу данных в очереди сообщений или корпоративной системе обмена сообщениями;
- отказоустойчивое хранение потоков записей;
- оперативная обработка потоков записей по мере их возникновения.
ADS является комплексным Big Data решением потоковой обработки, включая все необходимые компоненты для сбора, анализа и обработки данных в режиме реального времени, а также для хранения и передачи в семантике в точности однократной доставки (exactly once). Продукт отличается высокой степенью надежности, отказоустойчивости, безопасности и простотой эксплуатации за счет наличия удобных интерфейсов администрирования и разработки [1].
7 главных преимуществ продуктов Arenadata
- Полная локализация: для российских пользователей предлагается поддержка в России и на русском языке, с полным набором возможностей по автоматическому развертыванию в облаке и on-premises, оригинальную документацию на русском языке, а также удаленную или on-site поддержку [1].
- Возможность offline-установки: пакет утилит для развертывания без доступа к сети Интернет [1];
- Автоматизация процессов развертывания как на «голом железе», так и на виртуальных машинах (в «облаке»). В частности, для Arenadata Hadoop средства мониторинга и управления конфигурацией кластера позволяют оптимизировать производительность каждого компонента системы. Apache Ambari обеспечивает интерфейсы для интеграции с существующими системами управления (Microsoft System Center и Teradata ViewPoint) [1].
- Отсутствие зависимости от производителя («вендор-лог») — дистрибутивы собраны на основе открытых проектов Apache Software Foundation без использования проприетарных компонентов.
- Адаптация для корпоративного использования — продукты ориентированы на эксплуатацию в условиях высоких нагрузок, включают широкие возможности по обеспечению информационной безопасности и защиты данных, а также содержат средства интеграции с другими популярными Big Data решениями, корпоративными информационными системами, база и хранилищами данных.
- Российское программное обеспечение: в 2017 году Минкомсвязь РФ включило Arenadata Hadoop в Единый реестр российских программ для электронных вычислительных машин и баз данных [2]. В 2018 и 2019 аналогичным образом были зарегистрированы ADB и ADS.
- Гибкая ценовая политика — каждый продукт компании Arenadata доступен в двух версиях: бесплатной (community) и платной (enterprise), которые отличаются друг от друга составом компонентов и функциональными возможностями. Бесплатный пакет включает ядро проекта и небольшую часть собственных разработок компании Arenadata. Enterprise-версия представляет собой максимально полное решение, созданное вендором [1].
Где используются некоторые продукты Аренадата, читайте в отдельной статье.
Источники
- Сайт компании производителя Arenadata
- https://www.ibs.ru/media/news/distributiv-arenadata-hadoop-vklyuchen-v-reestr-rossiyskogo-po/