Курсы Trino, ClickHouse, Airflow, Kafka, МL и ИИ Обучение

01Июл
2025

Оптимизация запросов в ClickHouse: индексы, EXPLAIN и лучшие практики. Урок 6

Автор Nikolay Komissarenkoв категории ClickHouse, OLAP

Оптимизация запросов в ClickHouse: индексы, EXPLAIN и лучшие практики - - бесплатный курс ClickHouse от https://bigdataschool.ru

Итак, вы освоили типы данных, создали таблицы на правильных движках MergeTreeи даже научились писать сложные запросы. Кажется, что вы готовы к работе с реальными данными. Однако на больших объемах вы можете столкнуться с ситуацией, когда даже на мощном "железе" запрос выполняется не так быстро, как хотелось бы. В чем же...

29Июн
2025

Глубокое погружение в движки MergeTree: Replacing, Summing, Aggregating и Collapsing. Урок 5

Автор Nikolay Komissarenkoв категории ClickHouse, OLAP

DeepDive в движки семейства MergeTree в бесплатном курсе https://bigdataschool.ru

В предыдущих статьях мы узнали, что семейство движков MergeTree — это основа для хранения аналитических данных в ClickHouse. Мы создавали таблицы с помощью базового MergeTree и даже упоминали о его специализированных версиях. Теперь пришло время для глубокого погружения. Эти движки — не просто вариации, а мощные инструменты, которые выполняют часть...

27Июн
2025

Продвинутые функции SQL в ClickHouse: обработка строк, дат и условная логика. Урок 4

Автор Nikolay Komissarenkoв категории ClickHouse, OLAP

Функции в ClickHouse - курс по основам ClickHouse от https://bigdataschool.ru

Добро пожаловать в четвертую статью нашего курса по ClickHouse! В прошлый раз мы научились основам: вставлять, выбирать и агрегировать данные. Теперь, когда вы можете получать базовую статистику, пришло время углубить свои навыки и научиться "разговаривать" с данными на более сложном языке. Сегодня мы изучим мощные инструменты, которые позволят вам преобразовывать,...

25Июн
2025

Основы работы с данными в ClickHouse: вставка, выборка и первые аналитические запросы. Урок 3.

Автор Nikolay Komissarenkoв категории ClickHouse, OLAP, Статьи

Аналитические запросы в ClickHouse - https://bigdataschool.ru

Приветствуем вас в третьей части нашего гида по ClickHouse! В предыдущих статьях мы заложили прочный фундамент: разобрались, что такое ClickHouse (далее CH), почему он так хорош для аналитики, а также глубоко погрузились в типы данных и движки таблиц, научившись создавать оптимизированные таблицы. Теперь пришло время перейти от теории к самой...

24Июн
2025

Apache Hadoop в 2025: от фундамента Big Data до интеграции с S3, Ozone и облачными платформами

Автор Nikolay Komissarenkoв категории Статьи

В начале своего пути Apache Hadoop был настоящей революцией. Он предложил решение для обработки данных таких объемов, которые ранее считались невозможными, используя кластеры из обычного оборудования. Философия "перемещай вычисления к данным, а не данные к вычислениям" легла в основу мира Big Data. Но технологии не стоят на месте. Облачные платформы,...

23Июн
2025

Типы данных и движки в ClickHouse: Фундамент для производительности. Урок 2

Автор Nikolay Komissarenkoв категории ClickHouse, OLAP, Статьи

Типы данных и движки таблиц в ClickHouse - https://bigdataschool.ru

Приветствуем вас во второй части нашего курса по основам ClickHouse (далее CH)! В первой статье мы разобрались, что такое ClickHouse, почему он так хорош для аналитики и как запустить его локально или в облаке. Теперь пришло время углубиться в две ключевые концепции, которые определяют, как CH хранит и обрабатывает ваши...

21Июн
2025

Что такое ClickHouse: Полный гид по колоночной СУБД для сверхбыстрой аналитики. Урок 1.

Автор Nikolay Komissarenkoв категории ClickHouse, OLAP, Статьи

бесплатный курс по основам ClickHouse - Типы данных и движки таблиц

Если ваша работа связана с данными, вы наверняка слышали название ClickHouse. Это не просто очередная база данных, а мощный инструмент, который стремительно меняет подходы к аналитике в IT-компаниях по всему миру. В этой статье мы подробно разберемся, что же такое ClickHouse, почему он феноменально быстр в аналитических задачах и, самое...

25Май
2025

Пользовательское распределение данных для входного потока Lookup Join в Apache Flink 2.0

Автор Анна Вичуговав категории Flink

Flink обучение курсы примеры, Apache Flink SQL, курсы дата-инженеров Flink, Flink 2.0 примеры курсы обучение, Школа Больших Данных

Как Flink SQL позволяет обогащать потоковые данные информацией из внешних систем и статических таблиц, зачем в релизе 2.0 улучшили Lookup Join и каким образом работает эта оптимизация. Как работает потоковое обогащение в Apache Flink Для взаимодействия с внешними системами (источниками и приемниками данных) Apache Flink использует коннекторы. Source-коннекторы обеспечивают чтение...

20Май
2025

Не только Python: Go SDK в Apache AirFlow 3.0

Автор Анна Вичуговав категории AirFlow

курсы дата-инженеров Airflow, Airflow 3.0 примеры курсы обучение, Школа Больших Данных

Зачем в Apache AirFlow 3.0 добавлена поддержка Go и как работает этот экспериментальный SDK: возможности и ограничения разработки и запуска задач на компилируемом языке программирования. Мультиязычность в Apache AirFlow 3.0 Одной из ключевых новинок недавно выпущенного Apache AirFlow 3.0, о котором мы писали здесь, стала его мультиязычность. Теперь фреймворк поддерживает...

16Май
2025

Бесплатный митап «Retry Policy TASK» в Trino – не только и не столько надежность

Автор Анна Вичуговав категории Новости

Для популяризации нашего нового курса для дата-инженеров по Trino мы проводим очередной бесплатный митап для аналитиков, архитекторов, инженеров данных, разработчиков, DataOps- инженеров и тех, кто интересуется современными технологиями обработки данных. Поскольку Trino является движком для онлайн-обработки больших объемов данных с помощью распределенных SQL-запросов, ему нужна повышенная отказоустойчивость для стабильной работы...

13Май
2025

Настройка многопоточной обработки и планирование нагрузки ЦП в ClickHouse

Автор Анна Вичуговав категории ClickHouse

ClickHouse примеры курсы обучение, Архитектура данных курсы примеры обучение, дата-инженерия и архитектура данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Как оптимизировать многопоточную обработку в ClickHouse и эффективно распределить ресурсы ЦП между разными пользователями и запросами, спланировав рабочую нагрузку. Настройка многопоточной обработки в Clickhouse Чтобы эффективно утилизировать ресурсы для аналитической обработки огромных объемов данных, в ClickHouse можно спланировать рабочую нагрузку, определив приоритеты использования памяти, диска и ЦП для разных видов...

11Май
2025

Многопоточность в ClickHouse

Автор Анна Вичуговав категории ClickHouse

Как ClickHouse распараллеливает обработку данных для максимального использования всех ядер ЦП: особенности многопоточных вычислений в колоночной СУБД. Особенности многопоточной обработки в Clickhouse Современные центральные процессоры (ЦП) содержат несколько ядер и могут работать с несколькими задачами одновременно. Это называется многопоточной обработкой, где каждый поток, последовательность выполняемых инструкций, представляется как отдельная задача....

09Май
2025

Apache Wayang vs Beam: сравнение фреймворков

Автор Анна Вичуговав категории Beam

Apache Beam примеры курсы обучение, Beam Wayang Spark Flink для дата-инженера, примеры курсы обучение дата-инженеров, инженерия больших данных, Школа Больших Данных Учебный Центр Коммерсант

Чем похожи Apache Beam и Apache Wayang, чем они отличаются, что и когда выбирать для практического использования в аналитике и обработке больших данных: сравнительная таблица по 10 критериям. Сходства и отличия Apache Wayang и Apache Beam Недавно я писала про сходство и различие Apache Wayang и Trino, где упоминала, что...

07Май
2025

Планирование рабочей нагрузки в ClickHouse

Автор Анна Вичуговав категории ClickHouse

Как эффективно распределять ресурсы ClickHouse между разными пользователями и запросами, настроив политику планирования рабочих нагрузок: примеры и рекомендации. Иерархия планирования рабочей нагрузки в Clickhouse Когда ClickHouse выполняет несколько запросов одновременно, они могут использовать общие ресурсы, например, диски, ЦП и память. Чтобы эффективно распределять ресурсы ClickHouse между разными пользователями и нагрузками,...

05Май
2025

Kafka без дисков: разбираемся с KIP-1150

Автор Анна Вичуговав категории Статьи

Kafka курсы примеры обучение, Kafka для администратора кластера, Kafka примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Почему провайдерам Kafka как сервиса недостаточно многоуровневого хранилища (KIP-405) и зачем они предложили новое улучшение KIP-1150, меняющее архитектуру хранения и репликации данных напрямую в объектные системы. Кому и зачем понадобилась бездисковая Kafka: что не так с KIP-405 Одной из наиболее интересных тем вокруг Apache Kafka в апреле 2025 года стало...

03Май
2025

Отложенная материализация в ClickHouse

Автор Анна Вичуговав категории ClickHouse

Зачем в ClickHouse 25.4 добавлена отложенная материализация и как ленивые вычисления позволяют ускорить работу аналитической СУБД благодаря сокращению объемов читаемых данных и снижению количества операций дискового ввода-вывода. Еще раз о пользе ленивых вычислений Отложенные или ленивые вычисления (lazy evaluation), которые выполняются не сразу, а откладываются до момента, когда их результат...

01Май
2025

Управление метаданными в корпоративной платформе данных

Автор Анна Вичуговав категории Статьи

Архитектура данных курсы примеры обучение, хранилище данных для разработчика, дата-инженерия и архитектура данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Зачем нужен каталог метаданных и как он работает: построение платформы данных и управление метаданными по DAMA DMBOK. Unity Catalog и другие решения для учета источников данных и непрерывного обеспечения их актуальности. Управление метаданными по DMBOK Методологически создание и внедрение платформ данных основано на положениях DAMA DMBOK – своде знаний по...

30Апр
2025

Под капотом PREWHERE в ClickHouse: сравниваем планы запросов

Автор Анна Вичуговав категории ClickHouse

Как устроена оптимизация PREWHERE для сокращения объема сканируемых данных в ClickHouse: разбираемся с деталями реализации и смотрим планы выполнения SQL-запросов. Как устроена оптимизация PREWHERE в ClickHouse Недавно мы писали, как оптимизация PREWHERE позволяет сократить объем сканируемых данных и повысить скорость выполнения SQL-запроса в ClickHouse. Сегодня рассмотрим техническую реализацию этого оператора...

29Апр
2025

Проблемы ручной фиксации смещения потребителей в Kafka и их решения с KIP-1094

Автор Анна Вичуговав категории Kafka

Когда и зачем фиксировать смещение потребителей Kafka вручную, с какими проблемами можно при этом столкнуться и как улучшение KIP-1094 обеспечивает целостность потоков данных в распределенных средах. Когда и зачем фиксировать смещения потребителей в Kafka вручную Недавно мы разбирали, как выполняется автоматическая фиксация смещений потребителей в Apache Kafka. Она выполняется периодически....

28Апр
2025

Зачем нужна оптимизация PREWHERE в ClickHouse

Автор Анна Вичуговав категории ClickHouse

Как ускорить выполнение SQL-запроса в ClickHouse, сократив объем сканируемых данных с помощью оператора PREWHERE: практический пример простой, но эффективной оптимизации. Как работает оператор PREWHERE в ClickHouse ClickHouse имеет ряд многоуровневых оптимизаций, благодаря которым позволяет анализировать огромные объемы данных почти в реальном времени. Одной из таких оптимизаций является PREWHERE, которая сокращает...