Cloudera

Cloudera CDH (Cloudera’s Distribution including Apache Hadoop) — дистрибутив Apache Hadoop с набором программ, библиотек и утилит, разработанных компанией Cloudera для больших данных (Big Data) и машинного обучения (Machine Learning), бесплатно распространяемый и коммерчески поддерживаемый для некоторых Linux-систем (Red Hat, CentOS, Ubuntu, SuSE SLES, Debian) [1]. Состав и архитектура Клаудера...

Hadoop

Hadoop – это свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов. Эта основополагающая технология хранения и обработки больших данных (Big Data) является проектом верхнего уровня фонда Apache Software Foundation. Из чего состоит Hadoop: концептуальная архитектура Изначально проект...

NiFi

Apache NiFi - это простая платформа обработки событий (сообщений), предоставляющая возможности управления потоками данных из разнообразных источников в режиме реального времени с использованием графического интерфейса. Программа Apache NiFi написана на Java  и была разработана Агентством Национальной Безопасности  (NSA) под кодовым названием «Niagara Files» для диспетчеризации данных, поддерживающих работу с разнообразными небольшими сетевыми...

Arenadata

Группа Arenadata — ведущий российский разработчик ПО и лидер по количеству коммерческих внедрений на рынке систем управления и обработки данных. Группа представлена во всех ключевых нишах рынка и занимает лидирующие позиции в большинстве продуктовых категорий. Эксперты Arenadata вносят существенный вклад в развитие глобальных Open Source проектов. Arenadata среди мирового сообщества...

Hive

Apache Hive - это SQL интерфейс доступа к данным для платформы Apache Hadoop. Hive позволяет выполнять запросы, агрегировать и анализировать данные используя SQL синтаксис. Для данных в файловой системе HDFS используется схема доступа на чтение, позволяющая обращаться с данными, как с обыкновенной таблицей или реляционной СУБД. Запросы HiveQL транслируются в Java-код...

AirFlow

Apache AirFlow - это open-source инструмент, который позволяет разрабатывать, планировать и осуществлять мониторинг сложных рабочих процессов. Главной особенностью является то, что для описания процессов используется язык программирования Python. Airflow используется как планировщик ETL/ELT-процессов. Основные сущности рабочего процесса на Apache Airflow: Направленные ациклические графы (DAG) Планировщик (Scheduler) Операторы (Operators) Задачи (Tasks)...

KSQL

KSQL - это движок SQL для Apache Kafka, который может использоваться для анализа данных в режиме реального времени с использованием операторов SQL вместо написания большого количества кода на Java. KSQL, построенный на основе API Kafka Streams, поддерживает операции обработки потоков, такие как фильтрация, преобразования, агрегации, соединения, оконные операции и сессии....

Kafka

Apache Kafka - распределенный программный брокер сообщений поддерживающий транзакционность при работе с потребителями и поставщиками событий: публикует и подписывается на поток записей подобно очереди сообщений и корпоративной системе сообщений хранит поток записей (событий) обеспечивая отказоустойчивость и надежность обрабатывает поток записей (событий) по мере поступления Apache Kafka обычно используется как Event...

Zookeeper

Apache  Zookeeper -  open source проект Apache Software Foundation, cервис-координатор, который обеспечивает распределенную синхронизацию небольших по объему данных (конфигурационная информация, пространство имен)  для группы приложений. Zookeeper представляет из себя распределенное хранилище ключ-значение (key-value store), гарантирующий надежное консистентное (consistency)  хранение информации  за счет синхронной репликации между узлами, контроля версий, механизма очередей (queue)  и блокировок...

KNOX

Apache KNOX - REST API и шлюз приложений для компонентов экосистемы Apache Hadoop, обеспечивает единую точку доступа для всех HTTP соединений с кластерами Apache Hadoop и систему единой аутентификации Single Sign On (SSO) для сервисов и пользовательского интерфейса компонент Apache Hadoop. В сочетании с средствами сетевой изоляции  и  аутентификацией Kerberos, KNOX...

Поиск по сайту