NLTK - это ведущая платформа для создания программ на языке Python для работы с данными на естественном языке. Она предоставляет простые интерфейсы для более чем 50 корпусов и лексических ресурсов. Библиотека включает набор инструментов для обработки текста, таких как токенизация, классификация и тегирование. NLTK часто называют «учебной лабораторией» для...
NoSQL (Нереляционные базы данных) - это базы данных, которые используют для хранения информации модели, отличающиеся от привычных нам плоских таблиц. Термин NoSQL ("Not Only SQL") означает, что эти решения не ограничиваются жесткими рамками реляционной логики. Они предлагают более гибкие способы организации данных. В отличие от классического подхода, где структура данных...
Object detection – технология, связанная с компьютерным зрением (computer vision) и обработкой изображений, заключающаяся в обнаружении объектов определенных классов на цифровых изображениях и видео. Причем, обнаружение объектов заключается в определении границ объекта на цифровом изображении или видео. В качестве примера мы можем использовать открытую программную библиотеку для машинного обучения TensorFlow, разработанную...
OpenRouter — это API-агрегатор для больших языковых моделей (LLM), который предоставляет единый интерфейс доступа к множеству нейросетей. Он выступает как унифицированный шлюз к моделям от разных провайдеров, включая OpenAI (GPT-4), Anthropic (Claude 3.5), Google (Gemini), Meta (Llama), Mistral и десятки других. Чтобы понять его ценность, проще всего использовать аналогию....
ORC (Optimized Row Columnar) – это колоночно-ориентированный (столбцовый) формат хранения Big Data в экосистеме Apache Hadoop. Он совместим с большинством сред обработки больших данных в среде Apache Hadoop и похож на другие колоночные форматы файлов: RCFile и Parquet. Формат ORC был разработан в феврале 2013 года корпорацией Hortonworks в сотрудничестве...
OSMNX - это пакет Python, который позволяет загружать пространственные геометрии и моделировать, проектировать, визуализировать и анализировать реальные уличные сети из API-интерфейсов OpenStreetMap.
Apache Parquet - это бинарный, колоночно-ориентированный формат хранения больших данных, изначально созданный для экосистемы Hadoop, позволяющий использовать преимущества сжатого и эффективного колоночно-ориентированного представления информации. Паркет позволяет задавать схемы сжатия на уровне столбцов и добавлять новые кодировки по мере их появления [1]. Вместе с Apache Avro, Parquet является очень популярным форматом...
Prefect - это современная система оркестрации потоков данных (workflow orchestration), позволяющая превратить обычный Python-код в надежный, наблюдаемый и устойчивый к сбоям конвейер. Если классические инструменты вроде Apache Airflow требуют изучения сложного DSL (предметно-ориентированного языка), то Prefect исповедует философию "просто пиши на Python". Главная "фишка" Prefect - концепция Negative...
Prompt (промпт) — это текстовая инструкция или запрос, который человек вводит в систему искусственного интеллекта. Это делается, чтобы получить нужный ответ, изображение, код или другое действие. От качества и точности Prompt зависит, насколько полезным и релевантным будет результат. Можно рассматривать Prompt как техническое задание. Оно дается большой языковой модели...
Prompt engineering (инженерия запросов) - это процесс проектирования, формулирования и итеративной оптимизации текстовых инструкций (промптов), направленных к большим языковым моделям (LLM) для получения точных, релевантных и контролируемых ответов. Prompt Engineering (PE) включает в себя глубокое понимание того, как модель интерпретирует контекст, структурирует информацию и следует инструкциям. Как следствие,...
Apache Spark. PySpark может использоваться для распределенных вычислений на Python в рамках анализа и обработки больших данных (Big Data), а также машинного обучения (Machine Learning).
RBAC (Role-Based Access Control), или Управление доступом на основе ролей, - это фундаментальный отраслевой стандарт для управления правами доступа в IT-системах. Суть RBAC проста: вместо того чтобы назначать права доступа (например, "чтение таблицы X") напрямую каждому отдельному пользователю ("Ивану", "Петру", "Сервисному-Аккаунту-1"), вы сначала создаете Роль (например, "Аналитик"). Вы даете все...
RCFile (Record Columnar File) – гибридный многоколонный формат записей, адаптированный для хранения реляционных таблиц на кластерах и предназначенный для систем Big Data, использующих MapReduce. Этот формат для записи больших данных появился в 2011 году на основании исследований и совместных усилий Facebook, Государственного университета Огайо и Института вычислительной техники Китайской академии...
Redis (Remote Dictionary Server) - это высокопроизводительное in-memory хранилище данных типа key-value, поддерживающее различные структуры данных и используемое для кэширования, очередей, сессий и real-time-сценариев благодаря низкой задержке и горизонтальному масштабированию. В мире больших данных и веб-разработки скорость отклика часто является критическим фактором успеха. Традиционные дисковые базы данных не...
Redis Persistence - это комплекс механизмов, отвечающих за сохранение данных из оперативной памяти на долговечный носитель (жесткий диск или SSD). Redis — это in-memory база данных. Это означает, что по умолчанию все данные живут исключительно в оперативной памяти. Это обеспечивает феноменальную скорость, но создает критический риск: при любом...
Requests - стандартная библиотека для составления HTTP-запросов в Python.
REST API — это интерфейс программирования приложений, который соответствует принципам архитектурного стиля REST (Representational State Transfer). Важно понимать, что REST не является протоколом или стандартом. Это набор архитектурных ограничений и принципов для построения распределенных систем. Когда веб-сервис разработан с соблюдением этих принципов, его называют RESTful. Главная цель REST...
RAG (Retrieval-Augmented Generation) — это архитектурный подход в области искусственного интеллекта, который объединяет мощь больших языковых моделей (LLM) с внешними, авторитетными базами знаний. Проще говоря, это технология, которая учит языковые модели не выдумывать ответы, а находить их в проверенных источниках и на их основе генерировать осмысленный текст. RAG был разработан...
RFID (от английского Radio Frequency IDentification, радиочастотная идентификация) — способ автоматической идентификации объектов, когда радиосигналы считывают или записывают данные, хранящиеся в RFID-метках (транспондерах) [1]. Как появилась технология RFID: немного истории Предшественники современных RFID-меток появились в середине XX века в рамках разработки технологий передачи и распознавания сигналов в военной сфере [1]:...
Apache Samza (Самза) – это асинхронная вычислительная Big Data среда с открытым исходным кодом для распределенных потоковых вычислений практически в реальном времени, разработанная в 2013 году в соцсети LinkedIn на языках Scala и Java. Проектом верхнего уровня Apache Software Foundation Самза стала в 2014 году [1]. Samza vs Apache Kafka...

















