A B C D E G H I K L M N O P R S T W Y Z Б В Е И К М О П Т Ц
Kudu

Kudu – это колоночное хранилище данных в экосистеме Apache Hadoop, нереляционная СУБД (NoSQL) с открытым исходным кодом от компании Cloudera для оперативной аналитики быстро меняющихся данных в режиме реального времени. Назначение, история разработки и развития Основное назначение Apache Kudu состоит в заполнении аналитического разрыва между 2-мя движками хранения данных Apache...

Lake House

  Архитектура Data Lake House представляет собой современный подход к управлению данными. Она объединяет лучшие характеристики озер данных (Data Lakes) и корпоративных хранилищ данных (Data Warehouses). Эта концепция была разработана для решения фундаментальной проблемы. Компании были вынуждены использовать две отдельные, разрозненные системы. Озера данных отлично подходили для хранения больших объемов...

LLAMA

    LLAMA (Large Language Model Meta AI) — это семейство больших языковых моделей, созданное компанией Meta AI. Эти модели являются фундаментальной технологией в области искусственного интеллекта. Они предназначены для понимания и генерации текста, похожего на человеческий. Ключевой особенностью LLAMA стал её открытый подход. Meta предоставила доступ к весам моделей...

LLM

Large Language Models, LLM (Большие языковые модели) – это класс моделей искусственного интеллекта (ИИ),1 обученных на огромных объемах текстовых (а иногда и других типов) данных для понимания, генерации и манипулирования человеческим языком. Эти модели способны выполнять широкий спектр задач, связанных с обработкой естественного языка (NLP), и лежат в основе многих...

LTV

LTV (Lifetime Value) — это совокупная прибыль компании, получаемая от одного клиента за все время сотрудничества с ним. Увеличивается при уменьшении уровня оттока клиентов (Churn Rate). Каждая компания стремится увеличить LTV, удерживая клиента с помощью различных мер повышения лояльности (скидки, акции, подарки и пр.), т.к. привлечение нового пользователя обходится в 8-10...

Machine Learning

Machine learning - множество математических, статистических и вычислительных методов для разработки алгоритмов, способных решить задачу не прямым способом, а на основе поиска закономерностей в разнообразных входных данных. Что такое Machine Learning Общий термин «Machine Learning» или «машинное обучение» обозначает множество математических, статистических и вычислительных методов для разработки алгоритмов, способных решить...

Make

  Make, широко известный под своим предыдущим названием Integromat, — это мощная Low-Code платформа для автоматизации рабочих процессов, которая позволяет визуально проектировать, создавать и автоматизировать интеграции между тысячами веб-приложений. Make относится к классу iPaaS (Integration Platform as a Service), но его фундаментальное отличие от многих аналогов заключается в уникальном визуальном...

MapR

MapR Convergent Data Platform (MapRCDP) — дистрибутив Apache Hadoop с набором программ, библиотек и утилит Apache Software Foundation, а также средств собственной разработки американской компании MapR для больших данных (Big Data) и машинного обучения (Machine Learning) [1]. Существует три версии MapRCDP: Community Edition (M3) - бесплатная версия сообщества; Enterprise Edition...

MapReduce

MapReduce – это модель распределённых вычислений от компании Google, используемая в технологиях Big Data для параллельных вычислений над очень большими (до нескольких петабайт) наборами данных в компьютерных кластерах, и фреймворк для вычисления распределенных задач на узлах (node) кластера [1]. Назначение и области применения MapReduce можно по праву назвать главной технологией...

MergeTree

MergeTree – это семейство движков таблиц в ClickHouse, разработанное для хранения данных, отсортированных по первичному ключу. Эти движки обеспечивают высокую производительность для широкого спектра аналитических запросов, поддерживая быструю вставку данных и их последующую фоновую обработку (слияние кусков данных). Семейство MergeTree engine является основой для большинства высоконагруженных задач в ClickHouse. Основные...

Mirror Maker

Mirror Maker - это инструмент Apache Kafka, предназначенный для реализации зеркального копирования данных внутри брокера. Зеркальное копирование в Kafka подразумевает доступ к записям из разделов основного кластера с целью формирования локальной копии на дополнительном (целевом) кластере. Mirror Maker представляет собой набор потребителей, объединенных в одну группу, которые считывают данные из...

MongoDB

MongoDB - это документно-ориентированная (хранящая иерархические структуры данных в виде объектов, содержащих пары ключ/значение) система управления базами данных (СУБД), которая использует формат JSON (JavaScript Object Notation) для описания структуры хранящихся в ней объектов (документов).

n8n

  n8n — это платформа для автоматизации рабочих процессов, построенная на концепции узлов (nodes). Она позволяет соединять различные веб-сервисы и приложения для выполнения задач без написания кода. Инструмент относится к категории low-code платформ. Это означает, что пользователи могут создавать сложные сценарии автоматизации через визуальный интерфейс. Однако при необходимости можно расширять...

NiFi

Apache NiFi - это простая платформа обработки событий (сообщений), предоставляющая возможности управления потоками данных из разнообразных источников в режиме реального времени с использованием графического интерфейса. Программа Apache NiFi написана на Java  и была разработана Агентством Национальной Безопасности  (NSA) под кодовым названием «Niagara Files» для диспетчеризации данных, поддерживающих работу с разнообразными небольшими сетевыми...

NLTK

NLTK (Natural Language Toolkit) - это ведущая платформа для создания программ на Python для работы с данными на человеческом языке. NLTK предоставляет простые в использовании интерфейсы для более чем 50 корпоративных и лексических ресурсов, таких как WordNet. NLTK включает в себя большой набор библиотек обработки текста для классификации, токенизации, обработки...

NoSQL

NoSQL – это подход к реализации масштабируемого хранилища (базы) информации с гибкой моделью данных, отличающийся от классических реляционных СУБД. В нереляционных базах проблемы масштабируемости (scalability) и доступности (availability), важные для Big Data, решаются за счёт атомарности (atomicity) и согласованности данных (consistency) [1]. Зачем нужны нереляционные базы данных в Big Data:...

Object Detection

Object detection – технология, связанная с компьютерным зрением (computer vision) и обработкой изображений, заключающаяся в обнаружении объектов определенных классов на цифровых изображениях и видео. Причем, обнаружение объектов заключается в определении границ объекта на цифровом изображении или видео.   В качестве примера мы можем использовать открытую программную библиотеку для машинного обучения TensorFlow, разработанную...

ORC

ORC (Optimized Row Columnar) – это колоночно-ориентированный (столбцовый) формат хранения Big Data в экосистеме Apache Hadoop. Он совместим с большинством сред обработки больших данных в среде Apache Hadoop и похож на другие колоночные форматы файлов: RCFile и Parquet. Формат ORC был разработан в феврале 2013 года корпорацией Hortonworks в сотрудничестве...

OSMNX

OSMNX - это пакет Python, который позволяет загружать пространственные геометрии и моделировать, проектировать, визуализировать и анализировать реальные уличные сети из API-интерфейсов OpenStreetMap.

Ozone

  Apache Ozone — это распределенное, масштабируемое и согласованное хранилище объектов, созданное для экосистемы Apache Hadoop. Оно спроектировано для решения фундаментальных проблем масштабируемости HDFS (Hadoop Distributed File System), в первую очередь связанных с ограничением на количество файлов из-за метаданных, хранящихся в памяти NameNode. В отличие от HDFS, которое является файловой...