Apache Parquet - это бинарный, колоночно-ориентированный формат хранения больших данных, изначально созданный для экосистемы Hadoop, позволяющий использовать преимущества сжатого и эффективного колоночно-ориентированного представления информации. Паркет...
provenance
Data provenance - происхождение данных, метаданные, которые обеспечивают исторические изменения записи и её оригинала. Происхождение данных генерируется сложными трансформациями, такими как workflow, и представляют определенную...
PySpark
Apache Spark. PySpark может использоваться для распределенных вычислений на Python в рамках анализа и обработки больших данных (Big Data), а также машинного обучения (Machine Learning).