Apache Parquet - это бинарный, колоночно-ориентированный формат хранения больших данных, изначально созданный для экосистемы Hadoop, позволяющий использовать преимущества сжатого и эффективного колоночно-ориентированного представления информации. Паркет позволяет задавать схемы сжатия на уровне столбцов и добавлять новые кодировки по мере их появления [1]. Вместе с Apache Avro, Parquet является очень популярным форматом...
Data provenance - происхождение данных, метаданные, которые обеспечивают исторические изменения записи и её оригинала. Происхождение данных генерируется сложными трансформациями, такими как workflow, и представляют определенную ценность для data scientist. Data provenance часто используют в контексте high-level рассмотрения преобразования данных для бизнес-пользователя. Происхождение данных часто рассматривается как синоним Data Lineage, однако...
Apache Spark. PySpark может использоваться для распределенных вычислений на Python в рамках анализа и обработки больших данных (Big Data), а также машинного обучения (Machine Learning).