A B C D E F G H I K L M N O P R S T W Y Z Б В Е И К М О П Т Ц
RBAC

Управление доступом на основе ролей (Role Based Access Control, RBAC) — развитие политики избирательного управления доступом, при этом права доступа субъектов системы на объекты группируются с учётом специфики их применения, образуя роли. Формирование ролей призвано определить чёткие и понятные для пользователей компьютерной системы правила разграничения доступа. Ролевое разграничение доступа позволяет реализовать гибкие, изменяющиеся динамически в процессе функционирования...

RCFile

RCFile (Record Columnar File) – гибридный многоколонный формат записей, адаптированный для хранения реляционных таблиц на кластерах и предназначенный для систем Big Data, использующих MapReduce. Этот формат для записи больших данных появился в 2011 году на основании исследований и совместных усилий Facebook, Государственного университета Огайо и Института вычислительной техники Китайской академии...

Requests

Requests   - стандартная библиотека  для составления HTTP-запросов в Python.

RFID

RFID (от английского Radio Frequency IDentification, радиочастотная идентификация) — способ автоматической идентификации объектов, когда радиосигналы считывают или записывают данные, хранящиеся в RFID-метках (транспондерах) [1]. Как появилась технология RFID: немного истории Предшественники современных RFID-меток появились в середине XX века в рамках разработки технологий передачи и распознавания сигналов в военной сфере [1]:...

Samza

Apache Samza (Самза) – это асинхронная вычислительная Big Data среда с открытым исходным кодом для распределенных потоковых вычислений практически в реальном времени, разработанная в 2013 году в соцсети LinkedIn на языках Scala и Java. Проектом верхнего уровня Apache Software Foundation Самза стала в 2014 году [1]. Samza vs Apache Kafka...

Scikit-learn

Scikit-learn (Sklearn) – это библиотека с  реализацией целого ряда алгоритмов для обучения с учителем (Supervised Learning) и обучения без учителя (Unsupervised Learning) через интерфейс для языка программирования Python. Scikit-learn построена на основе SciPy (Scientific Python). Кроме того Sklearn имеет следующие зависимости: NumPy: расширение языка Python, добавляющее поддержку больших многомерных массивов и матриц,...

Segmentation image

Segmentation image – технология, связанная с компьютерным зрением (computer vision) и обработкой изображений, заключающаяся в обнаружении объектов определенных классов на цифровых изображениях и видео. Причем, обнаружение объектов заключается в определении класса (раскраска) каждого пикселя на цифровом изображении или на каждом кадре видеопотока.     Пример кода вы можете посмотреть на GitHub MachineLearningIsEasy...

SEMMA

SEMMA (аббревиатура от английских слов Sample, Explore, Modify, Model и Assess) – общая методология и последовательность шагов интеллектуального анализа данных (Data Mining), предложенная американской компанией SAS, одним из крупнейших производителей программного обеспечения для статистики и бизнес-аналитики, для своих продуктов [1].  Зачем нужен стандарт SEMMA В отличие от другого широко используемого...

Sequence

Sequence File (файл последовательностей) – это двоичный формат для хранения Big Data в виде сериализованных пар ключ/значение в экосистеме Apache Hadoop, позволяющий разбивать файл на участки (порции) при сжатии. Это обеспечивает параллелизм при выполнении задач MapReduce, т.к. разные порции одного файла могут быть распакованы и использованы независимо друг от друга...

Spark

Apache Spark – это Big Data фреймворк с открытым исходным кодом для распределённой пакетной и потоковой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop [1]. История появления Спарк и сравнение с Apache Hadoop Основным автором Apache Spark считается Матей Захария (Matei Zaharia), румынско-канадский учёный в области информатики. Он...

Spark SQL

Spark SQL - это часть Spark Structured API, с помощью этого API Вы можете работать с данными так, как будто Вы работаете с SQL сервером. API работает в обе стороны: результат выполнения SQL запроса - dataframe, в обратном направлении - регистрация существующего dataframe, как таблицы (к которой можно выполнить SQL...

Spark Streaming

Spark Streaming – это библиотека фреймворка Apache Spark для обработки непрерывных потоковых данных, которая оперирует с дискретизированным потоком DStream, чей API базируется на отказоустойчивой структуре RDD (Resilient Distributed Dataset, надежная распределенная коллекция типа таблицы). Несмотря на позиционирование Spark Streaming в качестве средства потоковой обработки, на самом деле эта библиотека реализует микропакетный подход (micro-batch), интерпретируя поток...

Storm

Apache Storm (Сторм, Шторм) – это Big Data фреймворк с открытым исходным кодом для распределенных потоковых вычислений в реальном времени, разработанный на языке программирования Clojure. Изначально созданный Натаном Марцем и командой из BackType, этот проект был открыт с помощью исходного кода, приобретенного Twitter. Первый релиз состоялся 17 сентября 2011 года,...

Structured Streaming

Spark Structured Streaming – это библиотека фреймворка Apache Spark для обработки непрерывных потоковых данных, основанная на модуле Spark SQL и API его основных структур данных – Dataframe и Dataset, поддерживаемыми в языках Java, Scala, Python и R. Как устроен Apache Spark Structured Streaming: основные принципы работы Модуль Apache Spark Structured Streaming был впервые выпущен в версии фреймворка...

Tarantool

Tarantool – open-source продукт российского происхождения, сервер приложений на языке Lua, интегрированный с резидентной NoSQL-СУБД, которая содержит все обрабатываемые данные и индексы в оперативной памяти, а также включает быстрый движок для работы с постоянным хранилищем (жесткие диски). Благодаря своим архитектурным особенностям, Тарантул позволяет быстро обрабатывать большие объемы данных, поэтому эта...

TensorFlow serving

TensorFlow serving –сервер для развертывания TensorFlow - моделей нейронных сетей с поддержкой батчинга, версионности, обработки параллельных запросов. TensorFlow Serving - серверная архитектура для развёртывания и обслуживания моделей ML в продуктивной среде. TensorFlow Serving делает легким процесс развертывания новых алгоритмов и экспериментов, при сохранении той же серверной архитектуры и API. TensorFlow...

Workflow

Рабочий процесс, или workflow, играет ключевую роль в повышении эффективности и улучшении производительности разработчиков. Оптимизированный workflow не только ускоряет разработку, но и снижает вероятность ошибок. Workflow опирается на такие принципы, как

WORM

Концепция WORM (Write Once, Read Many) представляет собой подход к управлению данными, где запись данных возможна только один раз, но их чтение может быть выполнено многократно. На данный момент эта концепция применима в таких областях, как

Yandex Managed Airflow

Apache Airflow - мощный инструмент для управления и планирования рабочих процессов. Он позволяет создавать, планировать и мониторить рабочие процессы, выраженные в виде направленного ациклического графа (DAG). Однако управление инфраструктурой Airflow может быть сложной задачей, именно поэтому службы управления, такие как Yandex Managed Airflow, становятся все более популярными.

Yandex Managed Clickhouse

ClickHouse — это колоночная система управления базами данных, разработанная для обработки аналитических запросов с высокой производительностью. Яндекс предлагает управляемую версию ClickHouse, предоставляя возможность легко разворачивать, масштабировать и управлять этой базой данных без необходимости углубленных знаний в области администрирования баз данных. В этой статье мы рассмотрим основные особенности управляемого ClickHouse от...

Поиск по сайту