REST API — это интерфейс программирования приложений, который соответствует принципам архитектурного стиля REST (Representational State Transfer). Важно понимать, что REST не является протоколом или стандартом. Это набор архитектурных ограничений и принципов для построения распределенных систем. Когда веб-сервис разработан с соблюдением этих принципов, его называют RESTful. Главная цель REST...
RAG (Retrieval-Augmented Generation) — это архитектурный подход в области искусственного интеллекта, который объединяет мощь больших языковых моделей (LLM) с внешними, авторитетными базами знаний. Проще говоря, это технология, которая учит языковые модели не выдумывать ответы, а находить их в проверенных источниках и на их основе генерировать осмысленный текст. RAG был разработан...
RFID (от английского Radio Frequency IDentification, радиочастотная идентификация) — способ автоматической идентификации объектов, когда радиосигналы считывают или записывают данные, хранящиеся в RFID-метках (транспондерах) [1]. Как появилась технология RFID: немного истории Предшественники современных RFID-меток появились в середине XX века в рамках разработки технологий передачи и распознавания сигналов в военной сфере [1]:...
Apache Samza (Самза) – это асинхронная вычислительная Big Data среда с открытым исходным кодом для распределенных потоковых вычислений практически в реальном времени, разработанная в 2013 году в соцсети LinkedIn на языках Scala и Java. Проектом верхнего уровня Apache Software Foundation Самза стала в 2014 году [1]. Samza vs Apache Kafka...
Scikit-learn (Sklearn) – это библиотека с реализацией целого ряда алгоритмов для обучения с учителем (Supervised Learning) и обучения без учителя (Unsupervised Learning) через интерфейс для языка программирования Python. Scikit-learn построена на основе SciPy (Scientific Python). Кроме того Sklearn имеет следующие зависимости: NumPy: расширение языка Python, добавляющее поддержку больших многомерных массивов и матриц,...
Segmentation image – технология, связанная с компьютерным зрением (computer vision) и обработкой изображений, заключающаяся в обнаружении объектов определенных классов на цифровых изображениях и видео. Причем, обнаружение объектов заключается в определении класса (раскраска) каждого пикселя на цифровом изображении или на каждом кадре видеопотока. Пример кода вы можете посмотреть на GitHub MachineLearningIsEasy...
SEMMA (аббревиатура от английских слов Sample, Explore, Modify, Model и Assess) – общая методология и последовательность шагов интеллектуального анализа данных (Data Mining), предложенная американской компанией SAS, одним из крупнейших производителей программного обеспечения для статистики и бизнес-аналитики, для своих продуктов [1]. Зачем нужен стандарт SEMMA В отличие от другого широко используемого...
Sequence File (файл последовательностей) – это двоичный формат для хранения Big Data в виде сериализованных пар ключ/значение в экосистеме Apache Hadoop, позволяющий разбивать файл на участки (порции) при сжатии. Это обеспечивает параллелизм при выполнении задач MapReduce, т.к. разные порции одного файла могут быть распакованы и использованы независимо друг от друга...
SIMD (Single Instruction, Multiple Data или "Одиночный поток команд, множественный поток данных") — это класс процессорных инструкций, позволяющий выполнить одну операцию одновременно над несколькими элементами данных. Это фундаментальная технология, которая обеспечивает параллелизм вычислений на уровне одного ядра процессора. Вместо того чтобы обрабатывать данные по одному, SIMD позволяет процессору...
Snowflake — это комплексная облачная платформа данных, предоставляемая по модели «программное обеспечение как услуга» (SaaS), которая в единой среде объединяет функциональность хранилища данных (Data Warehouse), озера данных (Data Lake) и аналитических систем, полностью абстрагируя пользователей от управления базовой инфраструктурой и предоставляя для работы с данными интерфейс на основе стандартного...
SOAP (изначально Simple Object Access Protocol) — это протокол обмена структурированными сообщениями в распределенной вычислительной среде. В отличие от REST, который является архитектурным стилем, SOAP представляет собой строгий и стандартизированный протокол, регламентированный консорциумом W3C. Его основная задача — обеспечить надежное и безопасное взаимодействие между приложениями, независимо от их...
Spark SQL - это часть Spark Structured API, с помощью этого API Вы можете работать с данными так, как будто Вы работаете с SQL сервером. API работает в обе стороны: результат выполнения SQL запроса - dataframe, в обратном направлении - регистрация существующего dataframe, как таблицы (к которой можно выполнить SQL...
Spark Streaming – это библиотека фреймворка Apache Spark для обработки непрерывных потоковых данных, которая оперирует с дискретизированным потоком DStream, чей API базируется на отказоустойчивой структуре RDD (Resilient Distributed Dataset, надежная распределенная коллекция типа таблицы). Несмотря на позиционирование Spark Streaming в качестве средства потоковой обработки, на самом деле эта библиотека реализует микропакетный подход (micro-batch), интерпретируя поток...
StarRocks — это аналитическая СУБД с MPP-архитектурой, которая умеет напрямую работать с данными в озерах (Hive, Iceberg, Delta Lake) без импорта и поддерживает обновления записей, что редкость для OLAP-систем.Ее главное назначение — это питание интерактивных BI-дэшбордов, аналитика, доступная конечным пользователям, и другие сценарии, где скорость ответа критически важна. Чтобы...
Apache Storm (Сторм, Шторм) – это Big Data фреймворк с открытым исходным кодом для распределенных потоковых вычислений в реальном времени, разработанный на языке программирования Clojure. Изначально созданный Натаном Марцем и командой из BackType, этот проект был открыт с помощью исходного кода, приобретенного Twitter. Первый релиз состоялся 17 сентября 2011 года,...
Spark Structured Streaming – это библиотека фреймворка Apache Spark для обработки непрерывных потоковых данных, основанная на модуле Spark SQL и API его основных структур данных – Dataframe и Dataset, поддерживаемыми в языках Java, Scala, Python и R. Как устроен Apache Spark Structured Streaming: основные принципы работы Модуль Apache Spark Structured Streaming был впервые выпущен в версии фреймворка...
Supabase - это открытая платформа для разработки серверных приложений (Backend-as-a-Service), построенная на основе PostgreSQL и предоставляющая готовые инструменты для аутентификации, хранения данных, API, работы с файлами и real-time обновлений.Supabase предлагает автоматическую генерацию REST и GraphQL API, встроенные механизмы безопасности (RLS), хостинг функций, а также простой SDK для web и...
Tarantool – open-source продукт российского происхождения, сервер приложений на языке Lua, интегрированный с резидентной NoSQL-СУБД, которая содержит все обрабатываемые данные и индексы в оперативной памяти, а также включает быстрый движок для работы с постоянным хранилищем (жесткие диски). Благодаря своим архитектурным особенностям, Тарантул позволяет быстро обрабатывать большие объемы данных, поэтому эта...
TensorFlow serving –сервер для развертывания TensorFlow - моделей нейронных сетей с поддержкой батчинга, версионности, обработки параллельных запросов. TensorFlow Serving - серверная архитектура для развёртывания и обслуживания моделей ML в продуктивной среде. TensorFlow Serving делает легким процесс развертывания новых алгоритмов и экспериментов, при сохранении той же серверной архитектуры и API. TensorFlow...
Transformer (Трансформер) — это архитектура нейронных сетей, основанная на механизме внимания (attention), который позволяет модели выбирать и сопоставлять важные части входных данных между собой, эффективно обрабатывая последовательности (например, текст) параллельно, что делает их основой современных систем обработки естественного языка и генеративных ИИ-моделей. Самый очевидный пример — это машинный перевод,...
















