Урок 6. Тяжелая артиллерия — запуск Spark-jobs через Apache Airflow

  Мы построили пайплайн, где данные забираются из базы и бережно складываются в HDFS. Теперь они лежат там мертвым грузом. Чтобы превратить сырые CSV в полезные отчеты, их нужно обработать: отфильтровать, агрегировать, джойнить. Делать это внутри самого Airflow (через PythonOperator и Pandas) - плохая идея если: Память: Если файл весит...

Изменение базового тарифа с 1 января 2026 года Подробнее