Построение хранилища данных на базе Clickhouse

Освойте лучшие практики использования ClickHouse в качестве корпоративного хранилища данных. Архитектура популярной колоночной СУБД, принципы работы и эффективные приемы для дата-инженера, аналитика, администратора, а также специалиста по Data Science и Machine Learning.

 

Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
CLICH
09 декабря 2024
17 февраля 2025
21 апреля 2025
72 000 руб. 24 ак.часов Дистанционный

О продукте:

Clickhouse — это популярная колоночная аналитическая СУБД, которая позволяет обрабатывать гигабайты данных в реальном времени. В отличие от строковых баз данных, например, mysql или postgresql, где информация данные хранятся на диске по одной строке за раз, что отлично подходит для транзакционных рабочих нагрузок, т.е. OLTP-приложений, в ClickHouse данные хранятся на диске по одному столбцу за раз. Каждый фрагмент данных представляет собой целый столбец. Поэтому все значения одного атрибута сущности сгруппированы вместе. Подобный принцип хранения данных сокращает время выполнения аналитических запросов в OLAP-приложениях, где соединяются данные по очень большому количеству записей.

ClickHouse имеет массивно-параллельную архитектуру (MPP, Massively Parallel Processing) без разделения ресурсов. Такая архитектура отлично подходит для OLAP-сценариев, поскольку аналитические СУБД работают с огромными объёмами данных, которые постоянно растут.

ClickHouse не поддерживает ACID-требования к транзакциям и ANSI SQL. Но эта СУБД предоставляет декларативный SQL-подобный язык запросов, включая такие операторы, как GROUP BY, ORDER BY, подзапросы в разделах FROM, IN, JOIN, оконные функции и скалярные подзапросы. Зависимые подзапросы пока не поддерживаются.

С архитектурной точки зрения один экземпляр ClickHouse на несколько серверов, к которым напрямую приходят запросы пользователей. Для репликации данных и выполнения распределённых SQL-запросов в ClickHouse используется сервис синхронизации метаданных ClickHouse Keeper, аналогичный по функциям Apache Zookeeper, но написанный на C++.

Высокую скорость обработки больших данных ClickHouse обеспечивает не только благодаря колоночному принципу хранения данных, но и за счет физической сортировки данных по первичному ключу. А векторный движок обработки запросов, оптимизированному для современных ЦП, а также распределенной и параллельной обработки запросов дает дополнительное ускорение.

Данные в ClickHouse располагаются на разных сегментах (shard), обеспечивая отказоустойчивость за счет репликации данных. SQL-запрос выполняется параллельно, т.е. одновременно на всех сегментах. Поэтому ClickHouse очень быстрый и может обрабатывать до 1 миллиарда строк в секунду на одном сервере и до двух ТБ в секунду на кластере из 400 узлов.

Эта колоночная СУБД отлично подходит для построения витрин данных и DWH, критичного к малейшим задержкам, обеспечивая быструю аналитику больших данных в реальном времени.

Аудитория:

  • Архитекторы DWH;
  • разработчики корпоративных хранилищ данных;
  • дата-инженеры;
  • аналитики.

Уровень подготовки:

  • Опыт написания SQL-запросов
  • Опыт работы с терминалом
  • Умение работать с Docker

О курсе:

Курс построен таким образом, чтобы всего за 6 дней дать студентам глубокое понимание и навыки работы с СУБД ClickHouse, включая ее архитектуру, возможности и ограничения. Для этого придется выполнять задания, решая задачи проектирования и эксплуатации корпоративного хранилища данных, включая выполнение операций devops.

Курс позволит понять, как устроена платформа Clichouse и каковые ее возможности для решения различных задач, связанных с обработкой и анализом больших объемов данных. Наше кликхаус обучение включает практические задания, которые помогут вам закрепить полученные знания и научиться применять их на практике. Все задания основаны на реальных задачах, которые приходится решать дата-инженеру при работе с Clickhouse. Задания выполняются онлайн, на платформе данных, предоставленной нашими специалистами devops, дополнительная оплата за экземпляр СУБД не требуется.

Продолжительность курса: 24 ак.часа, 6 дней по 4 ак.часа

Занятия проходят онлайн в дистанционном режиме с преподавателем. Практические задания тоже выполняются онлайн

Соотношение теории к практике: 50/50

Цель курса: научиться работать с ClickHouse и использовать его в качестве корпоративного хранилища данных (DWH)

Программа курса «Построение хранилища данных на базе Clickhouse»

1. Введение

    • Колоночные/строковые СУБД
    • Ограничение и особенности колоночных
    • Что такое ClickHouse
    • Преимущества и недостатки ClickHouse
    • Clickhouse VS Postgresql
    • Примеры использования ClickHouse
    • Установка и настройка сервера ClickHouse
      • Системные требования
    • Использование Docker для развертывания ClickHouse
    • ClickHouse в Yandex Cloud

2. Основы работы с данными в ClickHouse

    • Создание баз данных/таблиц
    • Загрузка данных
    • Типы данных и манипуляции с ними
    • Джойны
    • Индексы
    • Агрегация и оконные функции
    • Функции работы с датой и временем

3. Движки в ClickHouse

    • MergeTree
    •  Log
    • Движки для интеграций
    • Специальные движки
    • Обработка ошибок

4. Оптимизация производительности и нагрузки

    • Ограничения
    • Миграции
    • Кэширование и сжатие данных
    • Распараллеливание запросов
    • Балансировка нагрузки
    • Мониторинг и оптимизация запросов
    • Репликация и шардинг
    • Материлизация

5. Clickhouse и инструменты для визуализации данных

    • Datalens
    • SuperSet
    • Metabase
    • Grafana

6. Расширенные возможности и интеграции

    • Работа с географическими данными
    • Внешние ключи
    • Обработка событий в режиме реального времени
    • Интеграция с Kafka, Postgresql
    • Использование ClickHouse для машинного обучения

7. Администрирование и безопасность

    • Управление пользователями и ролями
    • Резервное копирование и восстановление данных
    • Шифрование данных
    • Аудит и мониторинг безопасности

8. Заключение

    • Комньюти
    • Сессия Q&A
Скачать программу курса «CLICH: Построение хранилища данных на базе Clickhouse» в формате pdf

Укажите e-mail, на который будет оправлена ссылка для скачивания файла:

Чему Вы научитесь:

В результате обучения вы приобретете базовые знания и навыки, необходимые для эффективной работы с Clickhouse и сможете:

  • работать с данными в ClickHouse
  • настраивать визуализацию и отчетность
  • администрировать и оптимизировать работу ClickHouse

Что Вы получите:

Окончив курс «Построение хранилища данных на базе Clickhouse» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите удостоверение установленного образца, что свидетельствует о повышении квалификации. По умолчанию документ выдается в электронном виде (pdf-файл), по желанию делаем бумажный вариант без дополнительной оплаты.

Кто проводит курс

Горбатова Виктория
МГУ им. М.В. Ломоносова (Москва, 2017)
Профессиональные компетенции:
  • Разработчик Python/Data Engineer
  • Руководитель группы по обработке и визуализации данных в Мастер Деливери
  • Организация ETL-процессов
  • Мониторинг и поддержка хранилищ данных (Clickhouse/Vertica/Greenplum)
  • Разработка на Python, Scala, SQL

Чтобы записаться на курс CLICH: Построение хранилища данных на базе Clickhouse позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.
Поиск по сайту