Построение хранилища данных на базе Clickhouse
Освойте лучшие практики использования ClickHouse в качестве корпоративного хранилища данных. Архитектура популярной колоночной СУБД, принципы работы и эффективные приемы для дата-инженера, аналитика, администратора, а также специалиста по Data Science и Machine Learning
Код курса | Даты начала курса | Стоимость обучения | Длительность обучения | Формат обучения |
---|---|---|---|---|
CLICH | 03 июня 2024 09 сентября 2024 |
72 000 руб. | 24 ак.часов | Дистанционный |
Что такое ClickHouse и его роль в DWH
Clickhouse — это популярная колоночная аналитическая СУБД, которая позволяет обрабатывать гигабайты данных в реальном времени. В отличие от строковых баз данных, например, mysql или postgresql, где информация данные хранятся на диске по одной строке за раз, что отлично подходит для транзакционных рабочих нагрузок, т.е. OLTP-приложений, в ClickHouse данные хранятся на диске по одному столбцу за раз. Каждый фрагмент данных представляет собой целый столбец. Поэтому все значения одного атрибута сущности сгруппированы вместе. Подобный принцип хранения данных сокращает время выполнения аналитических запросов в OLAP-приложениях, где соединяются данные по очень большому количеству записей.
ClickHouse имеет массивно-параллельную архитектуру (MPP, Massively Parallel Processing) без разделения ресурсов. Такая архитектура отлично подходит для OLAP-сценариев, поскольку аналитические СУБД работают с огромными объёмами данных, которые постоянно растут.
ClickHouse не поддерживает ACID-требования к транзакциям и ANSI SQL. Но эта СУБД предоставляет декларативный SQL-подобный язык запросов, включая такие операторы, как GROUP BY, ORDER BY, подзапросы в разделах FROM, IN, JOIN, оконные функции и скалярные подзапросы. Зависимые подзапросы пока не поддерживаются.
С архитектурной точки зрения один экземпляр ClickHouse на несколько серверов, к которым напрямую приходят запросы пользователей. Для репликации данных и выполнения распределённых SQL-запросов в ClickHouse используется сервис синхронизации метаданных ClickHouse Keeper, аналогичный по функция Apache Zookeeper, но написанный на C++.
Высокую скорость обработки больших данных ClickHouse обеспечивает не только благодаря колоночному принципу хранения данных, но и за счет физической сортировки данных по первичному ключу. А векторный движок обработки запросов, оптимизированному для современных ЦП, а также распределенной и параллельной обработки запросов дает дополнительное ускорение.
Данные в ClickHouse располагаются на разных сегментах (shard), обеспечивая отказоустойчивость за счет репликации данных. SQL-запрос выполняется параллельно, т.е. одновременно на всех сегментах. Поэтому ClickHouse очень быстрый и может обрабатывать до 1 миллиарда строк в секунду на одном сервере и до двух ТБ в секунду на кластере из 400 узлов.
Эта колоночная СУБД отлично подходит для построения витрин данных и DWH, критичного к малейшим задержкам, обеспечивая быструю аналитику больших данных в реальном времени.
Программа курса «CLICH: Построение хранилища данных на базе Clickhouse»
Укажите e-mail, на который будет оправлена ссылка для скачивания файла:
Программа курса "CLICH: Построение хранилища данных на базе Clickhouse"
1. Введение
- Колоночные/строковые СУБД
- Ограничение и особенности колоночных
- Что такое ClickHouse
- Преимущества и недостатки ClickHouse
- Clickhouse VS Postgresql
- Примеры использования ClickHouse
- Установка и настройка сервера ClickHouse
- Системные требования
- Использование Docker для развертывания ClickHouse
- ClickHouse в Yandex Cloud
2. Основы работы с данными в ClickHouse
- Создание баз данных/таблиц
- Загрузка данных
- Типы данных и манипуляции с ними
- Джойны
- Индексы
- Агрегация и оконные функции
- Функции работы с датой и временем
3. Движки в ClickHouse
- MergeTree
- Log
- Движки для интеграций
- Специальные движки
- Обработка ошибок
4. Оптимизация производительности и нагрузки
- Ограничения
- Миграции
- Кэширование и сжатие данных
- Распараллеливание запросов
- Балансировка нагрузки
- Мониторинг и оптимизация запросов
- Репликация и шардинг
- Материлизация
5. Clickhouse и инструменты для визуализации данных
- Datalens
- SuperSet
- Metabase
- Grafana
6. Расширенные возможности и интеграции
- Работа с географическими данными
- Внешние ключи
- Обработка событий в режиме реального времени
- Интеграция с Kafka, Postgresql
- Использование ClickHouse для машинного обучения
7. Администрирование и безопасность
- Управление пользователями и ролями
- Резервное копирование и восстановление данных
- Шифрование данных
- Аудит и мониторинг безопасности
8. Заключение
- Комньюти
- Сессия Q&A
Кому нужно обучение по Clickhouse
Цель курса:
Аудитория:
- архитекторы DWH
- разработчики корпоративных хранилищ данных
- дата-инженеры
- аналитики
Предварительный уровень подготовки:
- Опыт написания SQL-запросов
- Опыт работы с терминалом
- Умение работать с Docker
Как проходят кликхаус курсы
Курс построен таким образом, чтобы всего за 6 дней дать студентам глубокое понимание и навыки работы с СУБД ClickHouse, включая ее архитектуру, возможности и ограничения. Для этого придется выполнять задания, решая задачи проектирования и эксплуатации корпоративного хранилища данных, включая выполнение операций devops.
Курс позволит понять, как устроена платформа Clichouse и каковые ее возможности для решения различных задач, связанных с обработкой и анализом больших объемов данных. Наше кликхаус обучение включает практические задания, которые помогут вам закрепить полученные знания и научиться применять их на практике. Все задания основаны на реальных задачах, которые приходится решать дата-инженеру при работе с Clickhouse. Задания выполняются онлайн, на платформе данных, предоставленной нашими специалистами devops, дополнительная оплата за экземпляр СУБД не требуется.
Продолжительность курса: 24 ак.часа, 6 дней по 4 ак.часа
Занятия проходят онлайн в дистанционном режиме с преподавателем. Практические задания тоже выполняются онлайн
Соотношение теории к практике: 50/50
Чему вы научитесь
В результате обучения вы приобретете базовые знания и навыки, необходимые для эффективной работы с Clickhouse и сможете:
работать с данными в ClickHouse
настраивать визуализацию и отчетность
администрировать и оптимизировать работу ClickHouse
По завершении обучения вы получите
Кто проводит курс
Горбатова Виктория
МГУ им. М.В. Ломоносова (Москва, 2017)
Профессиональные компетенции:
- Разработчик Python/Data Engineer
- Руководитель группы по обработке и визуализации данных в Мастер Деливери
- Организация ETL-процессов
- Мониторинг и поддержка хранилищ данных (Clickhouse/Vertica/Greenplum)
- Разработка на Python, Scala, SQL
География наших клиентов
- Москва
- Санкт-Петербург
- Нижний Новгород
- Екатеринбург
- Казань
- Краснодар
- Красноярск
- Перьм
- Челябинск
- Новосибирск
- Томск
- Тверь
- Саратов
- Самара
- Ростов-на-Дону
- Хабаровск
- Волгоград
- Калуга
- Якутск
- Севастополь
- Тольяти
- Владивоссток
- Тюмень
- Южно-Сахалинск
- Уфа
- Ставрополь
- Минск
- Алматы
- Астана
- Ташкент
- Душанбе
- Бешкек