A B C D E F G H I K L M N O P R S T W Y Z Б В Е И К М О П Т Ц
Impala

Impala – это массово-параллельный механизм интерактивного выполнения SQL-запросов к данным, хранящимся в Apache Hadoop (HDFS и HBase), написанный на языке С++ и распространяющийся по лицензии Apache 2.0. Также Импала называют MPP-движком (Massively Parallel Processing), распределенной СУБД и даже базой данных стека SQL-on-Hadoop. Как появился Apache Impala и чем это связано с...

Impala

Impala - это механизм запросов на языке SQL (Structured Query Language), в основе которого лежит массово-параллельная обработка данных (Massively Parallel Processing, MPP), предполагающая одновременное выполнение множества вычислений благодаря распараллеливанию вычислительных процессов.

Internet of Things

Internet of Things (Интернет вещей) означает сеть физических или виртуальных предметов (вещей) подключенных напрямую или опосредованно к интернету и взаимодействующие между собой и/или с внешней средой посредством сбора данных и обмена данных поступающих со встроенных сервисов. Интернет вещей (IoT) дает компаниям и организациям возможность контролировать удаленно расположенные «дешевые» вещи /объекты ...

Kafka Consumer

  Kafka Consumer – это программный компонент (или программный код / библиотека), который интегрируется в клиентское приложение и предназначен для надежного и эффективного чтения данных (сообщений) из одного или нескольких топиков Apache Kafka, обычно работающий в составе группы потребителей для обеспечения масштабируемой и отказоустойчивой обработки потоков информации, активно взаимодействуя с...

Kafka Producer

  Kafka Producer – это программный компонент (или программный код / библиотека), интегрируемый в клиентское приложение, предназначенный для отправки данных (сообщений) в один или несколько топиков Apache Kafka, который эффективно взаимодействует с брокерами для надежной и высокопроизводительной записи информации, обеспечивая при этом различные гарантии доставки сообщений. Производители создают записи, содержащие...

Kafka Streams

Kafka Streams – это клиентская библиотека для разработки потоковых приложений Big Data, которые работают с данными, хранящимися в топиках Apache Kafka. Она предоставляет мощный и гибкий API-интерфейс со всеми преимуществами Кафка-платформы (масштабируемость, надежность, минимальную задержку, механизмы аналитических запросов), позволяя разработчику писать код в локальном режиме (вне кластера). Kafka Streams API,...

Kafka topic

Топик - это способ распределения сообщений в распределенных системах сообщений

KNOX

Apache KNOX - REST API и шлюз приложений для компонентов экосистемы Apache Hadoop, обеспечивает единую точку доступа для всех HTTP соединений с кластерами Apache Hadoop и систему единой аутентификации Single Sign On (SSO) для сервисов и пользовательского интерфейса компонент Apache Hadoop. В сочетании с средствами сетевой изоляции  и  аутентификацией Kerberos, KNOX...

KSQL

KSQL - это движок SQL для Apache Kafka, который может использоваться для анализа данных в режиме реального времени с использованием операторов SQL вместо написания большого количества кода на Java. KSQL, построенный на основе API Kafka Streams, поддерживает операции обработки потоков, такие как фильтрация, преобразования, агрегации, соединения, оконные операции и сессии....

ksqlDB

ksqlDB – это база данных потоковой передачи событий, построенная по архитектуре клиент-сервер, которую можно запустить с одним сервером или сгруппировать несколько серверов вместе, чтобы использовать ее API на основе SQL для запроса и обработки данных, хранящихся в топиках Apache Kafka. KsqlDB позволяет выполнять различные операции потоковой аналитики больших данных: фильтрация,...

Kubernetes

Kubernetes (K8s) – это программное обеспечение для автоматизации развёртывания, масштабирования и управления контейнеризированными приложениями. Поддерживает основные технологии контейнеризации (Docker, Rocket) и аппаратную виртуализацию [1]. Зачем нужен Kubernetes Kubernetes необходим для непрерывной интеграции и поставки программного обеспечения (CI/CD, Continuos Integration/ Continuos Delivery), что соответствует DevOps-подходу. Благодаря «упаковке» программного окружения в контейнер,...

Kudu

Kudu – это колоночное хранилище данных в экосистеме Apache Hadoop, нереляционная СУБД (NoSQL) с открытым исходным кодом от компании Cloudera для оперативной аналитики быстро меняющихся данных в режиме реального времени. Назначение, история разработки и развития Основное назначение Apache Kudu состоит в заполнении аналитического разрыва между 2-мя движками хранения данных Apache...

Large Language Model

Large Language Models, LLM (Большие языковые модели) – это класс моделей искусственного интеллекта (ИИ),1 обученных на огромных объемах текстовых (а иногда и других типов) данных для понимания, генерации и манипулирования человеческим языком. Эти модели способны выполнять широкий спектр задач, связанных с обработкой естественного языка (NLP), и лежат в основе многих...

LTV

LTV (Lifetime Value) — это совокупная прибыль компании, получаемая от одного клиента за все время сотрудничества с ним. Увеличивается при уменьшении уровня оттока клиентов (Churn Rate). Каждая компания стремится увеличить LTV, удерживая клиента с помощью различных мер повышения лояльности (скидки, акции, подарки и пр.), т.к. привлечение нового пользователя обходится в 8-10...

Machine Learning

Machine learning - множество математических, статистических и вычислительных методов для разработки алгоритмов, способных решить задачу не прямым способом, а на основе поиска закономерностей в разнообразных входных данных. Что такое Machine Learning Общий термин «Machine Learning» или «машинное обучение» обозначает множество математических, статистических и вычислительных методов для разработки алгоритмов, способных решить...

MapR

MapR Convergent Data Platform (MapRCDP) — дистрибутив Apache Hadoop с набором программ, библиотек и утилит Apache Software Foundation, а также средств собственной разработки американской компании MapR для больших данных (Big Data) и машинного обучения (Machine Learning) [1]. Существует три версии MapRCDP: Community Edition (M3) - бесплатная версия сообщества; Enterprise Edition...

MapReduce

MapReduce – это модель распределённых вычислений от компании Google, используемая в технологиях Big Data для параллельных вычислений над очень большими (до нескольких петабайт) наборами данных в компьютерных кластерах, и фреймворк для вычисления распределенных задач на узлах (node) кластера [1]. Назначение и области применения MapReduce можно по праву назвать главной технологией...

MergeTree

MergeTree – это семейство движков таблиц в ClickHouse, разработанное для хранения данных, отсортированных по первичному ключу. Эти движки обеспечивают высокую производительность для широкого спектра аналитических запросов, поддерживая быструю вставку данных и их последующую фоновую обработку (слияние кусков данных). Семейство MergeTree engine является основой для большинства высоконагруженных задач в ClickHouse. Основные...

Mirror Maker

Mirror Maker - это инструмент Apache Kafka, предназначенный для реализации зеркального копирования данных внутри брокера. Зеркальное копирование в Kafka подразумевает доступ к записям из разделов основного кластера с целью формирования локальной копии на дополнительном (целевом) кластере. Mirror Maker представляет собой набор потребителей, объединенных в одну группу, которые считывают данные из...

MongoDB

MongoDB - это документно-ориентированная (хранящая иерархические структуры данных в виде объектов, содержащих пары ключ/значение) система управления базами данных (СУБД), которая использует формат JSON (JavaScript Object Notation) для описания структуры хранящихся в ней объектов (документов).