Data Build Tool для инженеров данных
Быстрое освоение CLI-инструмента для эффективных ETL-операций.
Как создать, настроить и использовать dbt-проект: подключение к базе данных, написание моделей, использование макросов и материализации, создание пользовательских макросов, запуск и тестирование dbt-моделей
Код курса | Даты начала курса | Стоимость обучения | Длительность обучения | Формат обучения |
---|---|---|---|---|
DBT | 25 июня 2024 15 октября 2024 |
48 000 руб. | 16 ак.часов | Дистанционный |
Что такое dbt и зачем это дата-инженеру
Об инструменте Data Build Tool и его роли в работе инженера данных
В аналитике больших данных очень важно организовать эффективный, стабильный и надежный ETL-процесс, например, для загрузки данных в корпоративное хранилище или озеро. Реализовать такой ETL-конвейер можно с помощью специализированного инструмента dbt (Data Build Tool). Этот CLI-инструмент с открытым исходным кодом позволяет строить конвейеры преобразования данных со встроенной CI/CD-поддержкой и обеспечением качества, без фактической выгрузки исходных данных из источников.
DBT работает с теми данными, которые уже загружены в хранилище, компилируя SQL-запросы в код. Что важно для дата-инженера, dbt очень универсальный: он содержит адаптеры для всех распространенных хранилища данных. Поэтому можно переносить свои модели dbt для взаимодействия с другой СУБД, выполняя минимальную модификацию кода. А благодаря открытому исходному коду, в dbt можно добавлять свои собственные адаптеры. Так dbt позволяет быстро и удобно организовать различные задачи преобразования данных, чтобы запланировать их для запуска в автоматизированном и структурированном порядке.
Созданные пользователем dbt-модели запускаются через CLI-интерфейс и компилируются в SQL-запросы, абстрагируя материализацию в команды CREATE, INSERT, UPDATE, DELETE ALTER, GRANT и пр. Каждая SQL-модель включает SELECT-запрос, определяющий результат – итоговый набор данных. Скомпилированный SQL-код dbt-модели исполняется в хранилище в виде графа задач или направленный ациклический граф зависимостей. Если моделей несколько, dbt строит граф по конфигурациям всех моделей проекта, с учетом их взаимных ссылок друг на друга. Это позволяет запускать модели в нужной последовательности, выполняя конвейеры обработки данных и формируя витрины.
Кроме разработки самих моделей, dbt позволяет проверить предположения о результирующем наборе данных, включая тестирование уникальности, ссылочной целостности, соответствия списку допустимых значений. Также возможно добавление пользовательских тестов в виде SQL-запросов, например, для отслеживания % отклонения фактических показателей от заданных за конкретный период. Благодаря этому дата-инженер может найти в витринах данных нежелательные отклонения и ошибки.
Таким образом, dbt очень полезен в ежедневной работе инженера данных и умение эффективно использовать этот инструмент является полезной компетенцией современного инженера данных.
Программа курса "DBT: DATA BUILD TOOL ДЛЯ ИНЖЕНЕРОВ ДАННЫХ"
1. Общая информация
- Введение в dbt
- Основные концепции и принципы работы инструмента
- Роль dbt в процессах обработки данных (ETL/ELT)
2. Инициализация проекта
- Установка и настройка dbt
- Создание нового проекта в dbt
3. Настройка проекта
- Использование конфигурационных файлов
- Управление проектом и зависимостями
- Работа с переменными и параметрами проекта
4. Оркестрация Spark-приложений в Airflow
- Создание и организация моделей данных
- Использование SQL для трансформации и очистки данных
- Обработка отношений между моделями
5. Конфиги и макросы
- Использование конфигураций для моделей
- Создание собственных макросов
- Использование готовых макросов dbt для рутиных операций
6. Запуск моделей
- Автоматизация процессов загрузки данных
- Выполнение моделей и обновление результатов
- Граф зависимостей моделей и их выполнение в правильной последовательности
7. Тесты
- Проведение тестирования данных с помощью dbt
- Создание и применение тестов для обеспечения корректности данных
- Интеграция тестов в процесс разработки и обслуживания
Программа курса «DBT: Data Build Tool для инженеров данных»
Укажите e-mail, на который будет оправлена ссылка для скачивания файла:
Кому нужно обучение по Data Build Tool для инженеров данных
Цель курса:
Аудитория:
- Начинающие инженеры данных
- Опытные дата-инженеры, которые хотят изучить dbt
- Аналитики данных
Предварительный уровень подготовки:
- Базовые знания SQL
- Базовые знания Linux
Чему вы научитесь
В результате обучения вы приобретете базовые знания и навыки, необходимые для эффективного применения dbt
в аналитике больших данных и организации ETL-конвейеров
Создавать и организовывать модели данных в dbt
Проводить трансформацию данных с помощью SQL и макросов
Работать с переменными, хуками и многими другими возможностями dbt
Создавать Spark-приложения
Использовать Spark SQL для анализа данных
Оркестрировать Spark-приложения в Airflow
Как проходят курсы
Офлайн-обучение или онлайн-курс проходят в формате интерактивного семинара: даже в дистанционном режиме с вами занимается живой преподаватель - рассказывает теорию, дает практические задания и проверяет результаты выполнения. В качестве примеров рассматриваются реальные бизнес-кейсы и лучшие практики разработки высоконагруженных приложений для анализа больших данных
Продолжительность курса: 16 ак. часов (4 дня по 4 ак. часа)
Соотношение теории к практике: 50/50
Инструментальные средства: для практических занятий используются бесплатные среды для разработки и решения с открытым исходным кодом
По завершении обучения вы получите
Кто проводит курс
Темирханов Зелимхан
Российская академия народного хозяйства и государственной службы
при президенте РФ, ЭМИТ, цифровая экономика
Профессиональные компетенции:
- Организация ETL-конвейеров (Apache Airflow, Spark)
- Старший разработчик (Axenix ex. Accenture) дата-инженер
- Сопровождение, интеграция данных с помощью Apache Hadoop (Hdfs, Kafka, Spark, Hive)
География наших клиентов
- Москва
- Санкт-Петербург
- Нижний Новгород
- Екатеринбург
- Казань
- Краснодар
- Красноярск
- Перьм
- Челябинск
- Новосибирск
- Томск
- Тверь
- Саратов
- Самара
- Ростов-на-Дону
- Хабаровск
- Волгоград
- Калуга
- Якутск
- Севастополь
- Тольяти
- Владивоссток
- Тюмень
- Южно-Сахалинск
- Уфа
- Ставрополь
- Минск
- Алматы
- Астана
- Ташкент
- Душанбе
- Бешкек
«Школа Больших Данных»
Адрес:
127576, г. Москва, м. Алтуфьево,
Илимская ул. 5 корпус 2, офис 319, БЦ «Бизнес-Депо»
Телефон:
+7 (495) 414-11-21
+7 (995) 100-45-63
E-mail:
Часы работы:
Понедельник - Пятница: 09.00 – 18.00
Остались вопросы?
Звоните нам +7 (495) 41-41-121 или отправьте сообщение через контактную форму. Также вы можете найти ответы на ваши вопросы в нашем сборнике часто задаваемых вопросов.