Spark SQL - это часть Spark Structured API, с помощью этого API Вы можете работать с данными так, как будто Вы работаете с SQL сервером. API работает в обе стороны: результат выполнения SQL запроса - dataframe, в обратном направлении - регистрация существующего dataframe, как таблицы (к которой можно выполнить SQL...
Spark Streaming – это библиотека фреймворка Apache Spark для обработки непрерывных потоковых данных, которая оперирует с дискретизированным потоком DStream, чей API базируется на отказоустойчивой структуре RDD (Resilient Distributed Dataset, надежная распределенная коллекция типа таблицы). Несмотря на позиционирование Spark Streaming в качестве средства потоковой обработки, на самом деле эта библиотека реализует микропакетный подход (micro-batch), интерпретируя поток...
Apache Storm (Сторм, Шторм) – это Big Data фреймворк с открытым исходным кодом для распределенных потоковых вычислений в реальном времени, разработанный на языке программирования Clojure. Изначально созданный Натаном Марцем и командой из BackType, этот проект был открыт с помощью исходного кода, приобретенного Twitter. Первый релиз состоялся 17 сентября 2011 года,...
Spark Structured Streaming – это библиотека фреймворка Apache Spark для обработки непрерывных потоковых данных, основанная на модуле Spark SQL и API его основных структур данных – Dataframe и Dataset, поддерживаемыми в языках Java, Scala, Python и R. Как устроен Apache Spark Structured Streaming: основные принципы работы Модуль Apache Spark Structured Streaming был впервые выпущен в версии фреймворка...
Tarantool – open-source продукт российского происхождения, сервер приложений на языке Lua, интегрированный с резидентной NoSQL-СУБД, которая содержит все обрабатываемые данные и индексы в оперативной памяти, а также включает быстрый движок для работы с постоянным хранилищем (жесткие диски). Благодаря своим архитектурным особенностям, Тарантул позволяет быстро обрабатывать большие объемы данных, поэтому эта...
TensorFlow serving –сервер для развертывания TensorFlow - моделей нейронных сетей с поддержкой батчинга, версионности, обработки параллельных запросов. TensorFlow Serving - серверная архитектура для развёртывания и обслуживания моделей ML в продуктивной среде. TensorFlow Serving делает легким процесс развертывания новых алгоритмов и экспериментов, при сохранении той же серверной архитектуры и API. TensorFlow...
Trino — это высокопроизводительный, распределенный SQL-движок с открытым исходным кодом. Он предназначен для выполнения быстрых интерактивных аналитических запросов к данным из различных источников. Его главная особенность — способность запрашивать данные там, где они находятся (querying data in-place), без необходимости их перемещения в единое хранилище. Таким образом, Трино не...
Рабочий процесс, или workflow, играет ключевую роль в повышении эффективности и улучшении производительности разработчиков. Оптимизированный workflow не только ускоряет разработку, но и снижает вероятность ошибок. Workflow опирается на такие принципы, как
Концепция WORM (Write Once, Read Many) представляет собой подход к управлению данными, где запись данных возможна только один раз, но их чтение может быть выполнено многократно. На данный момент эта концепция применима в таких областях, как
Apache Airflow - мощный инструмент для управления и планирования рабочих процессов. Он позволяет создавать, планировать и мониторить рабочие процессы, выраженные в виде направленного ациклического графа (DAG). Однако управление инфраструктурой Airflow может быть сложной задачей, именно поэтому службы управления, такие как Yandex Managed Airflow, становятся все более популярными.
ClickHouse — это колоночная система управления базами данных, разработанная для обработки аналитических запросов с высокой производительностью. Яндекс предлагает управляемую версию ClickHouse, предоставляя возможность легко разворачивать, масштабировать и управлять этой базой данных без необходимости углубленных знаний в области администрирования баз данных. В этой статье мы рассмотрим основные особенности управляемого ClickHouse от...
Yandex Managed Data Proc (YMDP) - это мощный инструмент для обработки и анализа Big Data, предоставляемый Yandex Cloud. Он позволяет эффективно управлять распределенными вычислениями экосистемы Hadoop, обеспечивая высокую производительность и масштабируемость.
Яндекс, один из ведущих технологических гигантов, предоставляет множество облачных сервисов, включая Yandex Managed GreenPlum - управляемый сервис для работы с распределенной базой данных GreenPlum. GreenPlum - это мощная система управления данными, основанная на архитектуре PostgreSQL, предназначенная для обработки больших объемов данных. В этой статье мы рассмотрим, как использовать Yandex Managed...
Apache Kafka является распределенной системой обмена сообщениями, широко используемой для построения отказоустойчивых и масштабируемых потоков данных. Yandex Managed Kafka предоставляет управляемый сервис Kafka, который облегчает развертывание и управление кластерами Kafka без необходимости заботиться о инфраструктуре.
YARN – это система планирования заданий и управления кластером (Yet Another Resource Negotiator), которую также называют MapReduce 2.0 – набор системных программ (демонов), обеспечивающих совместное использование, масштабирование и надежность работы распределенных приложений. YARN является интерфейсом между аппаратными ресурсами кластера и приложениями, использующих его мощности для вычислений и аналитики больших данных....
Zapier — это ведущая онлайн-платформа для автоматизации рабочих процессов, которая функционирует как "цифровой клей", соединяя между собой тысячи различных веб-приложений и сервисов. Это флагманский продукт в мире no-code, позволяющий пользователям без навыков программирования создавать сложные цепочки автоматизации для передачи данных и выполнения действий между приложениями. Zapier решает фундаментальную проблему...
Apache Zookeeper - open source проект Apache Software Foundation, cервис-координатор, который обеспечивает распределенную синхронизацию небольших по объему данных (конфигурационная информация, пространство имен) для группы приложений. Zookeeper представляет из себя распределенное хранилище ключ-значение (key-value store), гарантирующий надежное консистентное (consistency) хранение информации за счет синхронной репликации между узлами, контроля версий, механизма очередей (queue) и блокировок...
Блокчейн (от английского blockchain, block chain – цепочка блоков) — выстроенная по определённым правилам непрерывная последовательность информационных блоков (связный список). Копии цепочек блоков хранятся на множестве разных, независимых друг от друга, компьютеров [1]. Поэтому данную цифровую цепочку называют технологией распределенного реестра [2]. История появления блокчейна Цифровизация финансовой сферы стала родоначальником термина...
Большие данные (Big Data) Большие данные - данные большого объема, высокой скорости накопления или изменения и/или разновариантные информационные активы, которые требуют экономически эффективных, инновационных формы обработки данных, которые позволяют получить расширенное понимание информации, способствующее принятию решений и автоматизации процессов. Для каждой организации или компании существует предел объема данных (Volume) которые...
Большие данные (Big Data) – совокупность непрерывно увеличивающихся объемов информации одного контекста, но разных форматов представления, а также методов и средств для эффективной и быстрой обработки [1]. Big Data: какие данные считаются большими Благодаря экспоненциальному росту возможностей вычислительной техники, описанному в законе Мура [2], объем данных не может являться...