Parquet

Apache Parquet - это бинарный, колоночно-ориентированный формат хранения больших данных, изначально созданный для экосистемы Hadoop, позволяющий использовать преимущества сжатого и эффективного колоночно-ориентированного представления информации. Паркет...

provenance

Data provenance - происхождение данных, метаданные, которые обеспечивают исторические изменения записи  и её оригинала. Происхождение данных генерируется сложными трансформациями, такими как workflow, и представляют определенную...

PySpark

Apache Spark. PySpark может использоваться для распределенных вычислений на Python в рамках анализа и обработки больших данных (Big Data), а также машинного обучения (Machine Learning).

Поиск по сайту