Dataframe

Dataframe - основная абстрация Apache Spark Dataframe - это аналог реляционной таблицы, которая хранится в распределенной памяти кластера обработки данных. Более точно - это не таблица, а алгоритм ее построения: все операции в Spark делятся на трансформации и действия, поэтому "построение" таблицы, как таковой, происходит только в момент выполнения действия...

Ввод и вывод в Apache Spark

Ввод и вывод в Apache Spark Apache Spark имеет простые, удобные и универсальные механизмы ввода вывода. С их помощью просто "читать" и "писать" файлы различных форматов (поддерживаются текстовые файлы, CSV, JSON, Parquet, ORC), а также работа с базами данных (через JDBC). Spark может использовать общие с Hive метаданные, тем самым...

Spark SQL

Spark SQL - это часть Spark Structured API, с помощью этого API Вы можете работать с данными так, как будто Вы работаете с SQL сервером. API работает в обе стороны: результат выполнения SQL запроса - dataframe, в обратном направлении - регистрация существующего dataframe, как таблицы (к которой можно выполнить SQL...

Поиск по сайту