Курсы Big Data, ClickHouse, Airflow,Greenplum, Kafka и Spark

11Июл
2025

Изучение ClickHouse: Итоги курса и следующие шаги в мире больших данных. Урок 10.

Автор Nikolay Komissarenkoв категории ClickHouse, OLAP, Статьи

Изучение ClickHouse - бесплатный курс ClickHouse от https://bigdataschool.ru

Поздравляем! Если вы читаете эти строки, значит, вы прошли полный путь от первого изучения ClickHouse до понимания его самых глубоких механизмов. За эти десять статей мы превратились из новичков, задающихся вопросом "Что такое колоночная СУБД?", в уверенных пользователей, способных не только писать сложные аналитические запросы, но и проектировать, оптимизировать и...

07Июл
2025

Гарантии доставки сообщений At-Most-Once и At-Least-Once

Автор Nikolay Komissarenkoв категории Kafka, Use Cases, Блог, Статьи

At most once delivery - гарантии доставки сообщений курсы от Школы Больших данных

В мире распределенных систем, гарантии доставки сообщений, при передаче данных между сервисами — это фундаментальная задача. Но что происходит, когда мы отправляем сообщение из точки А в точку Б через сеть, которая по своей природе ненадежна? Сетевые задержки, сбои серверов, перезапуски приложений — все это может привести к потере или...

07Июл
2025

Администрирование и мониторинг ClickHouse: от системных таблиц до бэкапов. Урок 9

Автор Nikolay Komissarenkoв категории ClickHouse, OLAP, Статьи

Администрирование и мониторинг ClickHouse: от системных таблиц до бэкапов - бесплатный курс ClickHouse от https://bigdataschool.ru

Мы с вами научились виртуозно писать запросы, строить сложные аналитические отчеты и интегрировать ClickHouse с другими системами. Но чтобы вся эта мощь работала стабильно и предсказуемо в production, кластер требует внимания и ухода. Написание запросов — это работа аналитика или разработчика, а поддержание здоровья системы — это задача администратора баз...

05Июл
2025

Аналитические суперсилы ClickHouse: Оконные функции и работа с массивами. Урок 8

Автор Nikolay Komissarenkoв категории ClickHouse, OLAP, Статьи

Оконные функции и работа с массивами в ClickHouse - бесплатный курс ClickHouse от https://bigdataschool.ru

Оконные функции ClickHouse и работа с массивами данных. Мы с вами уже прошли большой путь: научились эффективно хранить данные, оптимизировать таблицы, выполнять базовые и сложные запросы и даже интегрироваться с внешними системами. Казалось бы, мы можем практически всё. Но как ответить на такие вопросы: "Каково время между последовательными действиями каждого...

03Июл
2025

Интеграции ClickHouse: работа с MySQL, S3, Kafka и внешними словарями. Урок 7

Автор Nikolay Komissarenkoв категории ClickHouse, OLAP, Статьи

Интеграция ClickHouse с внешними системами и словарями - бесплатный курс ClickHouse от https://bigdataschool.ru

ДлДо сих пор мы рассматривали ClickHouse как самостоятельную систему: создавали в нем таблицы и загружали данные. Однако в реальном мире данные редко живут в одном месте. Транзакционная информация находится в реляционных базах вроде MySQL или PostgreSQL, архивы логов — в объектных хранилищах типа Amazon S3, а потоки событий в реальном...

01Июл
2025

Оптимизация запросов в ClickHouse: индексы, EXPLAIN и лучшие практики. Урок 6

Автор Nikolay Komissarenkoв категории ClickHouse, OLAP

Оптимизация запросов в ClickHouse: индексы, EXPLAIN и лучшие практики - - бесплатный курс ClickHouse от https://bigdataschool.ru

Итак, вы освоили типы данных, создали таблицы на правильных движках MergeTree и даже научились писать сложные запросы. Кажется, что вы готовы к работе с реальными данными. Однако на больших объемах вы можете столкнуться с ситуацией, когда даже на мощном "железе" запрос выполняется не так быстро, как хотелось бы. В чем...

29Июн
2025

Глубокое погружение в движки MergeTree: Replacing, Summing, Aggregating и Collapsing. Урок 5

Автор Nikolay Komissarenkoв категории ClickHouse, OLAP

DeepDive в движки семейства MergeTree в бесплатном курсе https://bigdataschool.ru

В предыдущих статьях мы узнали, что семейство движков MergeTree — это основа для хранения аналитических данных в ClickHouse. Мы создавали таблицы с помощью базового MergeTree и даже упоминали о его специализированных версиях. Теперь пришло время для глубокого погружения. Эти движки — не просто вариации, а мощные инструменты, которые выполняют часть...

27Июн
2025

Продвинутые функции SQL в ClickHouse: обработка строк, дат и условная логика. Урок 4

Автор Nikolay Komissarenkoв категории ClickHouse, OLAP

Функции в ClickHouse - курс по основам ClickHouse от https://bigdataschool.ru

Добро пожаловать в четвертую статью нашего курса по ClickHouse! В прошлый раз мы научились основам: вставлять, выбирать и агрегировать данные. Теперь, когда вы можете получать базовую статистику, пришло время углубить свои навыки и научиться "разговаривать" с данными на более сложном языке. Сегодня мы изучим мощные инструменты, которые позволят вам преобразовывать,...

25Июн
2025

Основы работы с данными в ClickHouse: вставка, выборка и первые аналитические запросы. Урок 3.

Автор Nikolay Komissarenkoв категории ClickHouse, OLAP, Статьи

Аналитические запросы в ClickHouse - https://bigdataschool.ru

Приветствуем вас в третьей части нашего гида по ClickHouse! В предыдущих статьях мы заложили прочный фундамент: разобрались, что такое ClickHouse (далее CH), почему он так хорош для аналитики, а также глубоко погрузились в типы данных и движки таблиц, научившись создавать оптимизированные таблицы. Теперь пришло время перейти от теории к самой...

23Июн
2025

Типы данных и движки в ClickHouse: Фундамент для производительности. Урок 2

Автор Nikolay Komissarenkoв категории ClickHouse, OLAP, Статьи

Типы данных и движки таблиц в ClickHouse - https://bigdataschool.ru

Приветствуем вас во второй части нашего курса по основам ClickHouse (далее CH)! В первой статье мы разобрались, что такое ClickHouse, почему он так хорош для аналитики и как запустить его локально или в облаке. Теперь пришло время углубиться в две ключевые концепции, которые определяют, как CH хранит и обрабатывает ваши...

21Июн
2025

Что такое ClickHouse: Полный гид по колоночной СУБД для сверхбыстрой аналитики. Урок 1.

Автор Nikolay Komissarenkoв категории ClickHouse, OLAP, Статьи

бесплатный курс по основам ClickHouse - Типы данных и движки таблиц

Если ваша работа связана с данными, вы наверняка слышали название ClickHouse. Это не просто очередная база данных, а мощный инструмент, который стремительно меняет подходы к аналитике в IT-компаниях по всему миру. В этой статье мы подробно разберемся, что же такое ClickHouse, почему он феноменально быстр в аналитических задачах и, самое...

25Май
2025

Пользовательское распределение данных для входного потока Lookup Join в Apache Flink 2.0

Автор Анна Вичуговав категории Flink

Flink обучение курсы примеры, Apache Flink SQL, курсы дата-инженеров Flink, Flink 2.0 примеры курсы обучение, Школа Больших Данных

Как Flink SQL позволяет обогащать потоковые данные информацией из внешних систем и статических таблиц, зачем в релизе 2.0 улучшили Lookup Join и каким образом работает эта оптимизация. Как работает потоковое обогащение в Apache Flink Для взаимодействия с внешними системами (источниками и приемниками данных) Apache Flink использует коннекторы. Source-коннекторы обеспечивают чтение...

20Май
2025

Не только Python: Go SDK в Apache AirFlow 3.0

Автор Анна Вичуговав категории AirFlow

курсы дата-инженеров Airflow, Airflow 3.0 примеры курсы обучение, Школа Больших Данных

Зачем в Apache AirFlow 3.0 добавлена поддержка Go и как работает этот экспериментальный SDK: возможности и ограничения разработки и запуска задач на компилируемом языке программирования. Мультиязычность в Apache AirFlow 3.0 Одной из ключевых новинок недавно выпущенного Apache AirFlow 3.0, о котором мы писали здесь, стала его мультиязычность. Теперь фреймворк поддерживает...

16Май
2025

Бесплатный митап “Retry Policy TASK” в Trino – не только и не столько надежность

Автор Анна Вичуговав категории Новости

Для популяризации нашего нового курса для дата-инженеров по Trino мы проводим очередной бесплатный митап для аналитиков, архитекторов, инженеров данных, разработчиков, DataOps- инженеров и тех, кто интересуется современными технологиями обработки данных. Поскольку Trino является движком для онлайн-обработки больших объемов данных с помощью распределенных SQL-запросов, ему нужна повышенная отказоустойчивость для стабильной работы...

13Май
2025

Настройка многопоточной обработки и планирование нагрузки ЦП в ClickHouse

Автор Анна Вичуговав категории ClickHouse

ClickHouse примеры курсы обучение, Архитектура данных курсы примеры обучение, дата-инженерия и архитектура данных примеры курсы обучение, Школа Больших Данных Учебный Центр Коммерсант

Как оптимизировать многопоточную обработку в ClickHouse и эффективно распределить ресурсы ЦП между разными пользователями и запросами, спланировав рабочую нагрузку. Настройка многопоточной обработки в Clickhouse Чтобы эффективно утилизировать ресурсы для аналитической обработки огромных объемов данных, в ClickHouse можно спланировать рабочую нагрузку, определив приоритеты использования памяти, диска и ЦП для разных видов...

11Май
2025

Многопоточность в ClickHouse

Автор Анна Вичуговав категории ClickHouse

Как ClickHouse распараллеливает обработку данных для максимального использования всех ядер ЦП: особенности многопоточных вычислений в колоночной СУБД. Особенности многопоточной обработки в Clickhouse Современные центральные процессоры (ЦП) содержат несколько ядер и могут работать с несколькими задачами одновременно. Это называется многопоточной обработкой, где каждый поток, последовательность выполняемых инструкций, представляется как отдельная задача....

09Май
2025

Apache Wayang vs Beam: сравнение фреймворков

Автор Анна Вичуговав категории Beam

Apache Beam примеры курсы обучение, Beam Wayang Spark Flink для дата-инженера, примеры курсы обучение дата-инженеров, инженерия больших данных, Школа Больших Данных Учебный Центр Коммерсант

Чем похожи Apache Beam и Apache Wayang, чем они отличаются, что и когда выбирать для практического использования в аналитике и обработке больших данных: сравнительная таблица по 10 критериям. Сходства и отличия Apache Wayang и Apache Beam Недавно я писала про сходство и различие Apache Wayang и Trino, где упоминала, что...

07Май
2025

Планирование рабочей нагрузки в ClickHouse

Автор Анна Вичуговав категории ClickHouse

Как эффективно распределять ресурсы ClickHouse между разными пользователями и запросами, настроив политику планирования рабочих нагрузок: примеры и рекомендации. Иерархия планирования рабочей нагрузки в Clickhouse Когда ClickHouse выполняет несколько запросов одновременно, они могут использовать общие ресурсы, например, диски, ЦП и память. Чтобы эффективно распределять ресурсы ClickHouse между разными пользователями и нагрузками,...

05Май
2025

Kafka без дисков: разбираемся с KIP-1150

Автор Анна Вичуговав категории Статьи

Kafka курсы примеры обучение, Kafka для администратора кластера, Kafka примеры курсы обучение дата-инженеров, Школа Больших Данных Учебный Центр Коммерсант

Почему провайдерам Kafka как сервиса недостаточно многоуровневого хранилища (KIP-405) и зачем они предложили новое улучшение KIP-1150, меняющее архитектуру хранения и репликации данных напрямую в объектные системы. Кому и зачем понадобилась бездисковая Kafka: что не так с KIP-405 Одной из наиболее интересных тем вокруг Apache Kafka в апреле 2025 года стало...

03Май
2025

Отложенная материализация в ClickHouse

Автор Анна Вичуговав категории ClickHouse

Зачем в ClickHouse 25.4 добавлена отложенная материализация и как ленивые вычисления позволяют ускорить работу аналитической СУБД благодаря сокращению объемов читаемых данных и снижению количества операций дискового ввода-вывода. Еще раз о пользе ленивых вычислений Отложенные или ленивые вычисления (lazy evaluation), которые выполняются не сразу, а откладываются до момента, когда их результат...