Публикации с меткой free courses

30Дек
2025

Урок 6. Тяжелая артиллерия — запуск Spark-jobs через Apache Airflow

Автор Nikolay Komissarenkoв категории AirFlow, Бесплатные курсы "Школа Больших Данных", Бесплатный курс Apache Airflow, Блог, Статьи

Запуск задач Apache Spark c Airflow SparkSubmitOperator

Мы построили пайплайн, где данные забираются из базы и бережно складываются в HDFS. Теперь они лежат там мертвым грузом. Чтобы превратить сырые CSV в полезные отчеты, их нужно обработать: отфильтровать, агрегировать, джойнить. Делать это внутри самого Airflow (через PythonOperator и Pandas) - плохая идея если: Память: Если файл весит...

23Дек
2025

Урок 5. Наследие Hadoop — интеграция с HDFS и использование Сенсоров

Автор Nikolay Komissarenkoв категории AirFlow, Бесплатные курсы "Школа Больших Данных", Бесплатный курс Apache Airflow, Блог, Статьи

Интеграция Apache Airflow с Hadoop HDFS и использование сенсоров

В мире Big Data технологии меняются с бешеной скоростью, но слон (Hadoop) все еще в комнате. Несмотря на популярность облачных S3-хранилищ, распределенная файловая система HDFS остается стандартом де-факто для многих корпоративных хранилищ Data Lake и on-premise кластеров. Даже если вы не пишете MapReduce-задачи на Java, ваш Airflow, скорее всего,...

17Дек
2025

Урок 4. Облачное хранилище — строим Data Lake на S3

Автор Nikolay Komissarenkoв категории AirFlow, Бесплатные курсы "Школа Больших Данных", Бесплатный курс Apache Airflow, Блог, Статьи

В прошлой статье мы научили Airflow работать со структурированными данными в Postgres. Но в мире Big Data базы данных - это лишь верхушка айсберга. Основная масса данных (логи, картинки, JSON-выгрузки, бэкапы) хранится в виде файлов. Хранить эти файлы на локальном диске сервера, где крутится Airflow - плохая идея. Диск не...

10Дек
2025

Урок 3. Базы данных и Connections: как научить Airflow общаться с PostgreSQL и хранить секреты

Автор Nikolay Komissarenkoв категории AirFlow, Бесплатные курсы "Школа Больших Данных", Бесплатный курс Apache Airflow, Блог, Статьи

Базы данных и Connections: как научить Airflow общаться с Postgres и хранить секреты

Оркестратор сам по себе бесполезен. Apache Airflow - это дирижер, а не музыкант. Его задача - не хранить данные и не (всегда) обрабатывать их, а говорить другим системам, что делать. "Postgres, выполни этот запрос", "Spark, посчитай эту витрину", "S3, отдай файл". Но чтобы сказать "Postgres, выполни запрос", Airflow должен...

29Ноя
2025

Урок 2. Архитектура для продакшена: учим Airflow работать в команде с Redis и Celery

Автор Nikolay Komissarenkoв категории Бесплатные курсы "Школа Больших Данных", Бесплатный курс Apache Airflow, Блог, Статьи

Запуск Apache Airlow with Celery Executors

В предыдущей статье мы запустили Airflow в режиме «все в одном». Это когда и планировщик, и исполнитель задач живут внутри одного процесса. Для обучения это подходит идеально, но в реальной жизни такая схема умирает первой. Представьте, что вам нужно запустить десять тяжелых SQL-запросов к базе данных и параллельно обработать пять...

11Июл
2025

Изучение ClickHouse: Итоги курса и следующие шаги в мире больших данных. Урок 10.

Автор Nikolay Komissarenkoв категории ClickHouse, OLAP, Бесплатный курс Clickhouse, Статьи

Изучение ClickHouse - бесплатный курс ClickHouse от https://bigdataschool.ru

Поздравляем! Если вы читаете эти строки, значит, вы прошли полный путь от первого изучения ClickHouse до понимания его самых глубоких механизмов. За эти десять статей мы превратились из новичков, задающихся вопросом "Что такое колоночная СУБД?", в уверенных пользователей, способных не только писать сложные аналитические запросы, но и проектировать, оптимизировать и...

07Июл
2025

Администрирование и мониторинг ClickHouse: от системных таблиц до бэкапов. Урок 9

Автор Nikolay Komissarenkoв категории ClickHouse, OLAP, Бесплатные курсы "Школа Больших Данных", Бесплатный курс Clickhouse, Статьи

Администрирование и мониторинг ClickHouse: от системных таблиц до бэкапов - бесплатный курс ClickHouse от https://bigdataschool.ru

Мы с вами научились виртуозно писать запросы, строить сложные аналитические отчеты и интегрировать ClickHouse с другими системами. Но чтобы вся эта мощь работала стабильно и предсказуемо в production, кластер требует внимания и ухода. Написание запросов — это работа аналитика или разработчика, а поддержание здоровья системы — это задача администратора баз...

05Июл
2025

Аналитические суперсилы ClickHouse: Оконные функции и работа с массивами. Урок 8

Автор Nikolay Komissarenkoв категории ClickHouse, OLAP, Бесплатные курсы "Школа Больших Данных", Бесплатный курс Clickhouse, Статьи

Оконные функции и работа с массивами в ClickHouse - бесплатный курс ClickHouse от https://bigdataschool.ru

Оконные функции ClickHouse и работа с массивами данных. Мы с вами уже прошли большой путь: научились эффективно хранить данные, оптимизировать таблицы, выполнять базовые и сложные запросы и даже интегрироваться с внешними системами. Казалось бы, мы можем практически всё. Но как ответить на такие вопросы: "Каково время между последовательными действиями каждого...

03Июл
2025

Интеграции ClickHouse: работа с MySQL, S3, Kafka и внешними словарями. Урок 7

Автор Nikolay Komissarenkoв категории ClickHouse, OLAP, Бесплатные курсы "Школа Больших Данных", Бесплатный курс Clickhouse, Статьи

Интеграция ClickHouse с внешними системами и словарями - бесплатный курс ClickHouse от https://bigdataschool.ru

До сих пор мы рассматривали ClickHouse как самостоятельную систему: создавали в нем таблицы и загружали данные. Однако в реальном мире данные редко живут в одном месте. Транзакционная информация находится в реляционных базах вроде MySQL или PostgreSQL, архивы логов — в объектных хранилищах типа Amazon S3, а потоки событий в реальном...

01Июл
2025

Оптимизация запросов в ClickHouse: индексы, EXPLAIN и лучшие практики. Урок 6

Автор Nikolay Komissarenkoв категории ClickHouse, OLAP, Бесплатные курсы "Школа Больших Данных", Бесплатный курс Clickhouse

Оптимизация запросов в ClickHouse: индексы, EXPLAIN и лучшие практики - - бесплатный курс ClickHouse от https://bigdataschool.ru

Итак, вы освоили типы данных, создали таблицы на правильных движках MergeTreeи даже научились писать сложные запросы. Кажется, что вы готовы к работе с реальными данными. Однако на больших объемах вы можете столкнуться с ситуацией, когда даже на мощном "железе" запрос выполняется не так быстро, как хотелось бы. В чем же...

27Июн
2025

Продвинутые функции SQL в ClickHouse: обработка строк, дат и условная логика. Урок 4

Автор Nikolay Komissarenkoв категории ClickHouse, OLAP, Бесплатные курсы "Школа Больших Данных", Бесплатный курс Clickhouse

Функции в ClickHouse - курс по основам ClickHouse от https://bigdataschool.ru

Добро пожаловать в четвертую статью нашего курса по ClickHouse! В прошлый раз мы научились основам: вставлять, выбирать и агрегировать данные. Теперь, когда вы можете получать базовую статистику, пришло время углубить свои навыки и научиться "разговаривать" с данными на более сложном языке. Сегодня мы изучим мощные инструменты, которые позволят вам преобразовывать,...

25Июн
2025

Основы работы с данными в ClickHouse: вставка, выборка и первые аналитические запросы. Урок 3.

Автор Nikolay Komissarenkoв категории ClickHouse, OLAP, Бесплатные курсы "Школа Больших Данных", Бесплатный курс Clickhouse, Статьи

Аналитические запросы в ClickHouse - https://bigdataschool.ru

Приветствуем вас в третьей части нашего гида по ClickHouse! В предыдущих статьях мы заложили прочный фундамент: разобрались, что такое ClickHouse (далее CH), почему он так хорош для аналитики, а также глубоко погрузились в типы данных и движки таблиц, научившись создавать оптимизированные таблицы. Теперь пришло время перейти от теории к самой...

23Июн
2025

Типы данных и движки в ClickHouse: Фундамент для производительности. Урок 2

Автор Nikolay Komissarenkoв категории ClickHouse, OLAP, Бесплатные курсы "Школа Больших Данных", Бесплатный курс Clickhouse, Статьи

Типы данных и движки таблиц в ClickHouse - https://bigdataschool.ru

Приветствуем вас во второй части нашего курса по основам ClickHouse (далее CH)! В первой статье мы разобрались, что такое ClickHouse, почему он так хорош для аналитики и как запустить его локально или в облаке. Теперь пришло время углубиться в две ключевые концепции, которые определяют, как CH хранит и обрабатывает ваши...

21Июн
2025

Что такое ClickHouse: Полный гид по колоночной СУБД для сверхбыстрой аналитики. Урок 1.

Автор Nikolay Komissarenkoв категории ClickHouse, OLAP, Бесплатные курсы "Школа Больших Данных", Бесплатный курс Clickhouse, Статьи

бесплатный курс по основам ClickHouse - Типы данных и движки таблиц

Данной статьей мы начинаем Бесплатный курс по "Основам ClickHouse для аналитиков и дата инженеров", который будет состоять из 10 уроков с практическими занятиями код которых будет доступен для скачивания на нашем GitHub аккаунте. Если ваша работа связана с данными, вы наверняка слышали название ClickHouse. Это не просто очередная база данных,...