Публикации с меткой Apache Spark

30Дек
2025

Урок 6. Тяжелая артиллерия — запуск Spark-jobs через Apache Airflow

Автор Nikolay Komissarenkoв категории AirFlow, Бесплатные курсы "Школа Больших Данных", Бесплатный курс Apache Airflow, Блог, Статьи

Запуск задач Apache Spark c Airflow SparkSubmitOperator

Мы построили пайплайн, где данные забираются из базы и бережно складываются в HDFS. Теперь они лежат там мертвым грузом. Чтобы превратить сырые CSV в полезные отчеты, их нужно обработать: отфильтровать, агрегировать, джойнить. Делать это внутри самого Airflow (через PythonOperator и Pandas) - плохая идея если: Память: Если файл весит...

Изменение базового тарифа с 1 января 2026 года Подробнее