Урок 8. Event-Driven Airflow — Запуск DAG по событиям из Apache Kafka

  До этого момента все наши DAG-и жили по расписанию. schedule_interval='@daily' - это классика. Но современный бизнес не хочет ждать "утреннего отчета". Если данные прилетели в 14:00, отчет должен быть готов в 14:10, а не на следующее утро. Здесь мы сталкиваемся с фундаментальным конфликтом: Airflow - это Batch-инструмент (запускает задачи...

Урок 7. Масштабирование Python-задач или как Airflow управляет Dask-кластером

  В прошлых статьях мы выяснили: если задача тяжелая и требует Java (Spark), мы используем SparkSubmitOperator. Но что делать, если у вас "тяжелый" Python? Типичная ситуация когда вы написали отличный код на Pandas внутри PythonOperator. На тестовом файле в 100 Мб все летало. В продакшене пришел файл на 10 Гб. Как...

Как установить Jupyter Notebook в WSL Windows для постоянного использования?

Запуск по требованию Jupyter notebook и сохранение данных блокнотов .ipynb   Этот гайд предназначен для тех кто использует эпизодически Jupyter Notebook и хочет иметь к ним доступ из Windows при этом оставляя возможность иметь доступ ко всем файлам блокнота и  погасить Jupyter следующего раза. Итак приступим!   Шаг 1: Подготовка...

Урок 6. Тяжелая артиллерия — запуск Spark-jobs через Apache Airflow

  Мы построили пайплайн, где данные забираются из базы и бережно складываются в HDFS. Теперь они лежат там мертвым грузом. Чтобы превратить сырые CSV в полезные отчеты, их нужно обработать: отфильтровать, агрегировать, джойнить. Делать это внутри самого Airflow (через PythonOperator и Pandas) - плохая идея если: Память: Если файл весит...

Урок 5. Наследие Hadoop — интеграция с HDFS и использование AirFlow Сенсоров

  В мире Big Data технологии меняются с бешеной скоростью, но слон (Hadoop) все еще в комнате. Несмотря на популярность облачных S3-хранилищ, распределенная файловая система HDFS остается стандартом де-факто для многих корпоративных хранилищ Data Lake и on-premise кластеров. Даже если вы не пишете MapReduce-задачи на Java, ваш Airflow, скорее всего,...

Урок 4. Облачное хранилище — строим Data Lake на S3 с Airflow

В прошлой статье мы научили Airflow работать со структурированными данными в Postgres. Но в мире Big Data базы данных - это лишь верхушка айсберга. Основная масса данных (логи, картинки, JSON-выгрузки, бэкапы) хранится в виде файлов. Хранить эти файлы на локальном диске сервера, где крутится Airflow - плохая идея. Диск не...

Урок 3. Базы данных и Connections: как научить Airflow общаться с PostgreSQL и хранить секреты

  Оркестратор сам по себе бесполезен. Apache Airflow - это дирижер, а не музыкант. Его задача - не хранить данные и не (всегда) обрабатывать их, а говорить другим системам, что делать. "Postgres, выполни этот запрос", "Spark, посчитай эту витрину", "S3, отдай файл". Но чтобы сказать "Postgres, выполни запрос", Airflow должен...

Урок 2. Архитектура для продакшена: учим Airflow работать в команде с Redis и Celery

В предыдущей статье мы запустили Airflow в режиме «все в одном». Это когда и планировщик, и исполнитель задач живут внутри одного процесса. Для обучения это подходит идеально, но в реальной жизни такая схема умирает первой. Представьте, что вам нужно запустить десять тяжелых SQL-запросов к базе данных и параллельно обработать пять...

Об изменении базового тарифа с 1 января 2026 года

  Уважаемые студенты и партнеры! Благодарим вас за доверие к нашей Школе и возможность быть частью вашего образовательного пути. «Школа Больших Данных» стремится предоставлять образовательные услуги высокого качества. Чтобы и впредь соответствовать этому стандарту — обновлять программы, привлекать опытных экспертов и развивать инфраструктуру — с 1 января 2026 года мы...

Урок 1. Установка Apache Airflow с нуля: Первый DAG и запуск в Docker

  Эта статья открывает наш цикл посвященный бесплатному курсу лекций по "Apache Airflow для новичков" и закладывает фундамент для осовения всей темы. Мы разберемся, зачем вообще нужен оркестратор, как Airflow устроен внутри и как его запустить за пять минут, чтобы начать первые эксперименты.   Архитектура и философия: почему Apache Airflow...

Как управлять топиками Kafka- полное удаление, очистка и аварийные сценарии

  Как управлять топиками Kafka: полное удаление, очистка и аварийные сценарии   Apache Kafka — мощный инструмент, но без должного ухода он быстро "захламляется". Топики, которые вы создавали для тестов, старые проекты или просто логи, со временем начинают занимать место и мешать. А иногда они разрастаются так, что кластер "ложится"...

Data Warehousing and Business Intelligence. От данных к инсайтам для бизнеса

Business Intelligence — это не отчеты. Это компас для вашего бизнеса Представьте себя капитаном большого корабля в открытом море во время шторма. Как вы будете прокладывать курс? Полагаясь на интуицию и старые карты, нарисованные от руки? Возможно, вам повезет. Но скорее всего, вы налетите на рифы или заблудитесь. А теперь...

Document and Content Management. Управление неструктурированными данными

    За пределами таблиц. Темная сторона корпоративных данных Представьте себе айсберг. Мы видим его верхушку, сияющую на солнце — она понятна, измерима и предсказуема. Это наши структурированные данные в базах и хранилищах. Но мы знаем, что 90% массы айсберга скрыто под водой. Точно так же и в мире корпоративной...

Data Integration and Interoperability. Как «подружить» десятки систем и источников

Введение. Цена молчания. Почему изолированные данные убивают ваш бизнес Мы с Вами сегодня поговорим об интеграции данных. Представьте себе человеческий организм. Мозг (руководство) принимает решения, руки (отдел продаж) выполняют задачи, голос (маркетинг) общается с миром, а ноги (логистика) обеспечивают движение. Все это работает слаженно благодаря центральной нервной системе, которая мгновенно...

Data Security. Защита данных как непрерывный процесс

Данные — не только актив, но и токсичный актив   Почему защита и безопасность данных важна? В мире бизнеса принято говорить, что данные — это новый ценный актив, новая нефть. Это правда, но лишь наполовину. Гораздо честнее будет сказать так: данные — это как радиоактивное топливо для атомной станции. При...

Data Storage and Operations. Как эффективно хранить и обслуживать петабайты данных

Данные как океан. Где его хранить и как им управлять?   Раньше, лет 15-20 назад, корпоративные данные были похожи на большое, но вполне обозримое озеро. Его можно было разместить в собственном "бассейне" — локальном дата-центре, и спокойно им управлять. Сегодня ситуация изменилась кардинально. Данные превратились в бескрайний, бушующий океан. Они...

Data Modeling and Design. От концепции к физической реализации в Big Data

Модель данных — язык, на котором бизнес говорит с технологиями   Есть старая айтишная мудрость: "Написать код легко. Гораздо сложнее написать правильный код для правильной модели данных". И это абсолютная правда. Любую ошибку в коде можно исправить относительно безболезненно. А вот ошибка, заложенная в саму структуру данных, в модель, обходится...

Data Architecture. Проектирование фундамента для вашего озера данных

Архитектура данных— невидимый фундамент вашего бизнеса   Представьте, что вы решили построить небоскреб. С чего вы начнете? Вряд ли с выбора панорамных окон и покупки дорогой итальянской мебели для пентхауса. Любой здравомыслящий человек начинает с фундамента. С прочного, продуманного, железобетонного основания, способного выдержать вес сотен этажей, порывы ветра и даже...

Data Governance. Как построить систему руководства и контроля данными, которая работает

Data Governance — не «Большой Брат», а правила дорожного движения   Представьте себе оживленный мегаполис в час пик. Тысячи машин (данные) несутся по сложной сети дорог (IT-системы), управляемые разными водителями (сотрудники). А теперь вообразите, что в этом городе внезапно отключили все светофоры, убрали разметку, дорожные знаки и посты ДПС. Что...

Изменение базового тарифа с 1 января 2026 года Подробнее