Data Build Tool для инженеров данных
Быстрое освоение CLI-инструмента для эффективных ETL-операций.
Как создать, настроить и использовать dbt-проект: подключение к базе данных, написание моделей, использование макросов и материализации, создание пользовательских макросов, запуск и тестирование dbt-моделей
О продукте:
В аналитике больших данных очень важно организовать эффективный, стабильный и надежный ETL-процесс, например, для загрузки данных в корпоративное хранилище или озеро. Реализовать такой ETL-конвейер можно с помощью специализированного инструмента dbt (Data Build Tool). Этот CLI-инструмент с открытым исходным кодом позволяет строить конвейеры преобразования данных со встроенной CI/CD-поддержкой и обеспечением качества, без фактической выгрузки исходных данных из источников.
DBT работает с теми данными, которые уже загружены в хранилище, компилируя SQL-запросы в код. Что важно для дата-инженера, dbt очень универсальный: он содержит адаптеры для всех распространенных хранилища данных. Поэтому можно переносить свои модели dbt для взаимодействия с другой СУБД, выполняя минимальную модификацию кода. А благодаря открытому исходному коду, в dbt можно добавлять свои собственные адаптеры. Так dbt позволяет быстро и удобно организовать различные задачи преобразования данных, чтобы запланировать их для запуска в автоматизированном и структурированном порядке.
Созданные пользователем dbt-модели запускаются через CLI-интерфейс и компилируются в SQL-запросы, абстрагируя материализацию в команды CREATE, INSERT, UPDATE, DELETE ALTER, GRANT и пр. Каждая SQL-модель включает SELECT-запрос, определяющий результат – итоговый набор данных. Скомпилированный SQL-код dbt-модели исполняется в хранилище в виде графа задач или направленный ациклический граф зависимостей. Если моделей несколько, dbt строит граф по конфигурациям всех моделей проекта, с учетом их взаимных ссылок друг на друга. Это позволяет запускать модели в нужной последовательности, выполняя конвейеры обработки данных и формируя витрины.
Кроме разработки самих моделей, dbt позволяет проверить предположения о результирующем наборе данных, включая тестирование уникальности, ссылочной целостности, соответствия списку допустимых значений. Также возможно добавление пользовательских тестов в виде SQL-запросов, например, для отслеживания % отклонения фактических показателей от заданных за конкретный период. Благодаря этому дата-инженер может найти в витринах данных нежелательные отклонения и ошибки.
Таким образом, dbt очень полезен в ежедневной работе инженера данных и умение эффективно использовать этот инструмент является полезной компетенцией современного инженера данных.
Аудитория:
- Начинающие инженеры данных
- Опытные дата-инженеры, которые хотят изучить dbt
- Аналитики данных
Уровень подготовки:
- Базовые знания SQL
- Базовые знания Linux
О курсе:
Офлайн-обучение или онлайн-курс проходят в формате интерактивного семинара: даже в дистанционном режиме с вами занимается живой преподаватель — рассказывает теорию, дает практические задания и проверяет результаты выполнения. В качестве примеров рассматриваются реальные бизнес-кейсы и лучшие практики разработки высоконагруженных приложений для анализа больших данных
Продолжительность курса: 16 ак. часов (4 дня по 4 ак. часа)
Соотношение теории к практике: 50/50
Инструментальные средства: для практических занятий используются бесплатные среды для разработки и решения с открытым исходным кодом
Цель курса: освоить эффективные приемы использования CLI-инструмента dbt, чтобы легко создавать, организовывать и поддерживать процессы обработки данных в ETL/ELT-конвейерах в различных аналитических платформах
Программа курса «Data Build Tool для инженеров данных»
1. Общая информация
-
- Введение в dbt
- Основные концепции и принципы работы инструмента
- Роль dbt в процессах обработки данных (ETL/ELT)
2. Инициализация проекта
-
- Установка и настройка dbt
- Создание нового проекта в dbt
3. Настройка проекта
-
- Использование конфигурационных файлов
- Управление проектом и зависимостями
- Работа с переменными и параметрами проекта
4. Оркестрация Spark-приложений в Airflow
-
- Создание и организация моделей данных
- Использование SQL для трансформации и очистки данных
- Обработка отношений между моделями
5. Конфиги и макросы
-
- Использование конфигураций для моделей
- Создание собственных макросов
- Использование готовых макросов dbt для рутиных операций
6. Запуск моделей
-
- Автоматизация процессов загрузки данных
- Выполнение моделей и обновление результатов
- Граф зависимостей моделей и их выполнение в правильной последовательности
7. Тесты
-
- Проведение тестирования данных с помощью dbt
- Создание и применение тестов для обеспечения корректности данных
- Интеграция тестов в процесс разработки и обслуживания
Укажите e-mail, на который будет оправлена ссылка для скачивания файла:
Чему вы научитесь:
В результате обучения вы приобретете базовые знания и навыки, необходимые для эффективного применения dbt в аналитике больших данных и организации ETL-конвейеров
- Создавать и организовывать модели данных в dbt
- Проводить трансформацию данных с помощью SQL и макросов
- Работать с переменными, хуками и многими другими возможностями dbt
- Создавать Spark-приложения
- Использовать Spark SQL для анализа данных
- Оркестрировать Spark-приложения в Airflow
Что Вы получите:
Окончив курс «Data Build Tool для инженеров данных» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите сертификат установленного образца, который может засчитываться в качестве свидетельства о повышении квалификации.