Ввод и вывод в Apache Spark
Apache Spark имеет простые, удобные и универсальные механизмы ввода вывода. С их помощью просто «читать» и «писать» файлы различных форматов (поддерживаются текстовые файлы, CSV, JSON, Parquet, ORC), а также работа с базами данных (через JDBC). Spark может использовать общие с Hive метаданные, тем самым с загруженными с помощью Spark данными можно работать не только в Spark.
Механизмы ввода-вывода Spark (или, как их еще называют, «работы с источниками») работают параллельно, что позволяет достичь высочайших скоростей загрузки. Spark содержит полный набор инструментов для построения эффективных конвейеров преобразования данных, загрузка данных — это лишь одна его часть, важная, но не единственная.