A B C D E F G H I K L M N O P R S T V W Y Z А Б В Е И К М О П Т Ц
SDLC

    SDLC (Software Development Life Cycle) - это структурированный процесс создания программного обеспечения, который описывает каждый этап разработки от идеи до вывода из эксплуатации. Понимание этого цикла позволяет командам выпускать качественный продукт в прогнозируемые сроки и в рамках бюджета. В сфере Big Data и ML этот процесс становится критически...

Segmentation image

Segmentation image – технология, связанная с компьютерным зрением (computer vision) и обработкой изображений, заключающаяся в обнаружении объектов определенных классов на цифровых изображениях и видео. Причем, обнаружение объектов заключается в определении класса (раскраска) каждого пикселя на цифровом изображении или на каждом кадре видеопотока.     Пример кода вы можете посмотреть на GitHub MachineLearningIsEasy...

SEMMA

SEMMA (аббревиатура от английских слов Sample, Explore, Modify, Model и Assess) – общая методология и последовательность шагов интеллектуального анализа данных (Data Mining), предложенная американской компанией SAS, одним из крупнейших производителей программного обеспечения для статистики и бизнес-аналитики, для своих продуктов [1].  Зачем нужен стандарт SEMMA В отличие от другого широко используемого...

Sequence

Sequence File (файл последовательностей) – это двоичный формат для хранения Big Data в виде сериализованных пар ключ/значение в экосистеме Apache Hadoop, позволяющий разбивать файл на участки (порции) при сжатии. Это обеспечивает параллелизм при выполнении задач MapReduce, т.к. разные порции одного файла могут быть распакованы и использованы независимо друг от друга...

Shadow Deployment

  Shadow Deployment (теневое развертывание) - это методика выпуска программного обеспечения, при которой входящий продуктовый трафик дублируется и отправляется на новую версию приложения. Эта версия работает параллельно с текущей ("боевой") версией. Она обрабатывает запросы, но не возвращает ответы пользователю. Этот подход позволяет инженерам проверить поведение новой системы на реальных данных....

SIMD

    SIMD (Single Instruction, Multiple Data или "Одиночный поток команд, множественный поток данных") — это класс процессорных инструкций, позволяющий выполнить одну операцию одновременно над несколькими элементами данных. Это фундаментальная технология, которая обеспечивает параллелизм вычислений на уровне одного ядра процессора. Вместо того чтобы обрабатывать данные по одному, SIMD позволяет процессору...

Snowflakes

  Snowflake — это комплексная облачная платформа данных, предоставляемая по модели «программное обеспечение как услуга» (SaaS), которая в единой среде объединяет функциональность хранилища данных (Data Warehouse), озера данных (Data Lake) и аналитических систем, полностью абстрагируя пользователей от управления базовой инфраструктурой и предоставляя для работы с данными интерфейс на основе стандартного...

SOAP

    SOAP (изначально Simple Object Access Protocol) — это протокол обмена структурированными сообщениями в распределенной вычислительной среде. В отличие от REST, который является архитектурным стилем, SOAP представляет собой строгий и стандартизированный протокол, регламентированный консорциумом W3C. Его основная задача — обеспечить надежное и безопасное взаимодействие между приложениями, независимо от их...

Spark SQL

Spark SQL - это часть Spark Structured API, с помощью этого API Вы можете работать с данными так, как будто Вы работаете с SQL сервером. API работает в обе стороны: результат выполнения SQL запроса - dataframe, в обратном направлении - регистрация существующего dataframe, как таблицы (к которой можно выполнить SQL...

Spark Streaming

Spark Streaming – это библиотека фреймворка Apache Spark для обработки непрерывных потоковых данных, которая оперирует с дискретизированным потоком DStream, чей API базируется на отказоустойчивой структуре RDD (Resilient Distributed Dataset, надежная распределенная коллекция типа таблицы). Несмотря на позиционирование Spark Streaming в качестве средства потоковой обработки, на самом деле эта библиотека реализует микропакетный подход (micro-batch), интерпретируя поток...

StarRocks

  StarRocks — это аналитическая СУБД с MPP-архитектурой, которая умеет напрямую работать с данными в озерах (Hive, Iceberg, Delta Lake) без импорта и поддерживает обновления записей, что редкость для OLAP-систем.Ее главное назначение — это питание интерактивных BI-дэшбордов, аналитика, доступная конечным пользователям, и другие сценарии, где скорость ответа критически важна. Чтобы...

Storm

Apache Storm (Сторм, Шторм) – это Big Data фреймворк с открытым исходным кодом для распределенных потоковых вычислений в реальном времени, разработанный на языке программирования Clojure. Изначально созданный Натаном Марцем и командой из BackType, этот проект был открыт с помощью исходного кода, приобретенного Twitter. Первый релиз состоялся 17 сентября 2011 года,...

Structured Streaming

Spark Structured Streaming – это библиотека фреймворка Apache Spark для обработки непрерывных потоковых данных, основанная на модуле Spark SQL и API его основных структур данных – Dataframe и Dataset, поддерживаемыми в языках Java, Scala, Python и R. Как устроен Apache Spark Structured Streaming: основные принципы работы Модуль Apache Spark Structured Streaming был впервые выпущен в версии фреймворка...

Supabase

  Supabase - это открытая платформа для разработки серверных приложений (Backend-as-a-Service), построенная на основе PostgreSQL и предоставляющая готовые инструменты для аутентификации, хранения данных, API, работы с файлами и real-time обновлений.Supabase предлагает автоматическую генерацию REST и GraphQL API, встроенные механизмы безопасности (RLS), хостинг функций, а также простой SDK для web и...

Tarantool

Tarantool – open-source продукт российского происхождения, сервер приложений на языке Lua, интегрированный с резидентной NoSQL-СУБД, которая содержит все обрабатываемые данные и индексы в оперативной памяти, а также включает быстрый движок для работы с постоянным хранилищем (жесткие диски). Благодаря своим архитектурным особенностям, Тарантул позволяет быстро обрабатывать большие объемы данных, поэтому эта...

TensorFlow serving

TensorFlow serving –сервер для развертывания TensorFlow - моделей нейронных сетей с поддержкой батчинга, версионности, обработки параллельных запросов. TensorFlow Serving - серверная архитектура для развёртывания и обслуживания моделей ML в продуктивной среде. TensorFlow Serving делает легким процесс развертывания новых алгоритмов и экспериментов, при сохранении той же серверной архитектуры и API. TensorFlow...

Transformer

  Transformer (Трансформер) — это архитектура нейронных сетей, основанная на механизме внимания (attention), который позволяет модели выбирать и сопоставлять важные части входных данных между собой, эффективно обрабатывая последовательности (например, текст) параллельно, что делает их основой современных систем обработки естественного языка и генеративных ИИ-моделей. Самый очевидный пример — это машинный перевод,...

Trino

    Trino — это высокопроизводительный, распределенный SQL-движок с открытым исходным кодом. Он предназначен для выполнения быстрых интерактивных аналитических запросов к данным из различных источников. Его главная особенность — способность запрашивать данные там, где они находятся (querying data in-place), без необходимости их перемещения в единое хранилище. Таким образом, Трино не...

Vector database

  Vector Database (Векторная база данных) - это специализированная система хранения данных, предназначенная для эффективного хранения, индексации и поиска векторов (embeddings). Векторы, в свою очередь, являются математическими представлениями неструктурированных данных, таких как текст, изображения, аудио или видео. В отличие от традиционных баз данных, которые хранят данные в таблицах (строки и...

Workflow

Рабочий процесс, или workflow, играет ключевую роль в повышении эффективности и улучшении производительности разработчиков. Оптимизированный workflow не только ускоряет разработку, но и снижает вероятность ошибок. Workflow опирается на такие принципы, как

Изменение базового тарифа с 1 января 2026 года Подробнее