Ввод и вывод в Apache Spark

Apache Spark имеет простые, удобные и универсальные механизмы ввода вывода. С их помощью просто “читать” и “писать” файлы различных форматов (поддерживаются текстовые файлы, CSV, JSON, Parquet, ORC), а также работа с базами данных (через JDBC). Spark может использовать общие с Hive метаданные, тем самым с загруженными с помощью Spark данными можно работать не только в Spark.

Механизмы ввода-вывода Spark (или, как их еще называют, “работы с источниками”) работают параллельно, что позволяет достичь высочайших скоростей загрузки. Spark содержит полный набор инструментов для построения эффективных конвейеров преобразования данных, загрузка данных – это лишь одна его часть, важная, но не единственная.

Related Entries