A B C D E G H I K L M N O P R S T W Y Z Б В Е И К М О П Т Ц
SEMMA

SEMMA (аббревиатура от английских слов Sample, Explore, Modify, Model и Assess) – общая методология и последовательность шагов интеллектуального анализа данных (Data Mining), предложенная американской компанией SAS, одним из крупнейших производителей программного обеспечения для статистики и бизнес-аналитики, для своих продуктов [1].  Зачем нужен стандарт SEMMA В отличие от другого широко используемого...

Sequence

Sequence File (файл последовательностей) – это двоичный формат для хранения Big Data в виде сериализованных пар ключ/значение в экосистеме Apache Hadoop, позволяющий разбивать файл на участки (порции) при сжатии. Это обеспечивает параллелизм при выполнении задач MapReduce, т.к. разные порции одного файла могут быть распакованы и использованы независимо друг от друга...

Snowflakes

  Snowflake — это комплексная облачная платформа данных, предоставляемая по модели «программное обеспечение как услуга» (SaaS), которая в единой среде объединяет функциональность хранилища данных (Data Warehouse), озера данных (Data Lake) и аналитических систем, полностью абстрагируя пользователей от управления базовой инфраструктурой и предоставляя для работы с данными интерфейс на основе стандартного...

SOAP

    SOAP (изначально Simple Object Access Protocol) — это протокол обмена структурированными сообщениями в распределенной вычислительной среде. В отличие от REST, который является архитектурным стилем, SOAP представляет собой строгий и стандартизированный протокол, регламентированный консорциумом W3C. Его основная задача — обеспечить надежное и безопасное взаимодействие между приложениями, независимо от их...

Spark SQL

Spark SQL - это часть Spark Structured API, с помощью этого API Вы можете работать с данными так, как будто Вы работаете с SQL сервером. API работает в обе стороны: результат выполнения SQL запроса - dataframe, в обратном направлении - регистрация существующего dataframe, как таблицы (к которой можно выполнить SQL...

Spark Streaming

Spark Streaming – это библиотека фреймворка Apache Spark для обработки непрерывных потоковых данных, которая оперирует с дискретизированным потоком DStream, чей API базируется на отказоустойчивой структуре RDD (Resilient Distributed Dataset, надежная распределенная коллекция типа таблицы). Несмотря на позиционирование Spark Streaming в качестве средства потоковой обработки, на самом деле эта библиотека реализует микропакетный подход (micro-batch), интерпретируя поток...

Storm

Apache Storm (Сторм, Шторм) – это Big Data фреймворк с открытым исходным кодом для распределенных потоковых вычислений в реальном времени, разработанный на языке программирования Clojure. Изначально созданный Натаном Марцем и командой из BackType, этот проект был открыт с помощью исходного кода, приобретенного Twitter. Первый релиз состоялся 17 сентября 2011 года,...

Structured Streaming

Spark Structured Streaming – это библиотека фреймворка Apache Spark для обработки непрерывных потоковых данных, основанная на модуле Spark SQL и API его основных структур данных – Dataframe и Dataset, поддерживаемыми в языках Java, Scala, Python и R. Как устроен Apache Spark Structured Streaming: основные принципы работы Модуль Apache Spark Structured Streaming был впервые выпущен в версии фреймворка...

Tarantool

Tarantool – open-source продукт российского происхождения, сервер приложений на языке Lua, интегрированный с резидентной NoSQL-СУБД, которая содержит все обрабатываемые данные и индексы в оперативной памяти, а также включает быстрый движок для работы с постоянным хранилищем (жесткие диски). Благодаря своим архитектурным особенностям, Тарантул позволяет быстро обрабатывать большие объемы данных, поэтому эта...

TensorFlow serving

TensorFlow serving –сервер для развертывания TensorFlow - моделей нейронных сетей с поддержкой батчинга, версионности, обработки параллельных запросов. TensorFlow Serving - серверная архитектура для развёртывания и обслуживания моделей ML в продуктивной среде. TensorFlow Serving делает легким процесс развертывания новых алгоритмов и экспериментов, при сохранении той же серверной архитектуры и API. TensorFlow...

Transformer

  Transformer (Трансформер) — это архитектура нейронных сетей, основанная на механизме внимания (attention), который позволяет модели выбирать и сопоставлять важные части входных данных между собой, эффективно обрабатывая последовательности (например, текст) параллельно, что делает их основой современных систем обработки естественного языка и генеративных ИИ-моделей. Самый очевидный пример — это машинный перевод,...

Trino

    Trino — это высокопроизводительный, распределенный SQL-движок с открытым исходным кодом. Он предназначен для выполнения быстрых интерактивных аналитических запросов к данным из различных источников. Его главная особенность — способность запрашивать данные там, где они находятся (querying data in-place), без необходимости их перемещения в единое хранилище. Таким образом, Трино не...

Workflow

Рабочий процесс, или workflow, играет ключевую роль в повышении эффективности и улучшении производительности разработчиков. Оптимизированный workflow не только ускоряет разработку, но и снижает вероятность ошибок. Workflow опирается на такие принципы, как

WORM

Концепция WORM (Write Once, Read Many) представляет собой подход к управлению данными, где запись данных возможна только один раз, но их чтение может быть выполнено многократно. На данный момент эта концепция применима в таких областях, как

Yandex Managed Airflow

Apache Airflow - мощный инструмент для управления и планирования рабочих процессов. Он позволяет создавать, планировать и мониторить рабочие процессы, выраженные в виде направленного ациклического графа (DAG). Однако управление инфраструктурой Airflow может быть сложной задачей, именно поэтому службы управления, такие как Yandex Managed Airflow, становятся все более популярными.

Yandex Managed Clickhouse

ClickHouse — это колоночная система управления базами данных, разработанная для обработки аналитических запросов с высокой производительностью. Яндекс предлагает управляемую версию ClickHouse, предоставляя возможность легко разворачивать, масштабировать и управлять этой базой данных без необходимости углубленных знаний в области администрирования баз данных. В этой статье мы рассмотрим основные особенности управляемого ClickHouse от...

Yandex Managed Data Proc

Yandex Managed Data Proc (YMDP) - это мощный инструмент для обработки и анализа Big Data, предоставляемый Yandex Cloud. Он позволяет эффективно управлять распределенными вычислениями экосистемы Hadoop, обеспечивая высокую производительность и масштабируемость.

Yandex Managed GreenPlum

Яндекс, один из ведущих технологических гигантов, предоставляет множество облачных сервисов, включая Yandex Managed GreenPlum - управляемый сервис для работы с распределенной базой данных GreenPlum. GreenPlum - это мощная система управления данными, основанная на архитектуре PostgreSQL, предназначенная для обработки больших объемов данных. В этой статье мы рассмотрим, как использовать Yandex Managed...

Yandex Managed Kafka

Apache Kafka является распределенной системой обмена сообщениями, широко используемой для построения отказоустойчивых и масштабируемых потоков данных. Yandex Managed Kafka предоставляет управляемый сервис Kafka, который облегчает развертывание и управление кластерами Kafka без необходимости заботиться о инфраструктуре.

YARN

YARN – это система планирования заданий и управления кластером (Yet Another Resource Negotiator), которую также называют MapReduce 2.0 – набор системных программ (демонов), обеспечивающих совместное использование, масштабирование и надежность работы распределенных приложений. YARN является интерфейсом между аппаратными ресурсами кластера и приложениями, использующих его мощности для вычислений и аналитики больших данных....