Data Build Tool для инженеров данных

Быстрое освоение CLI-инструмента для эффективных ETL-операций.
Как создать, настроить и использовать dbt-проект: подключение к базе данных, написание моделей, использование макросов и материализации, создание пользовательских макросов, запуск и тестирование dbt-моделей
Код курса
DBT
Ближайшие даты курса
8 апреля, 2024
25 июня, 2024
Длительность обучения
16 ак.часов
Стоимость обучения
48 000 руб.

Что такое dbt и зачем это дата-инженеру

Об инструменте Data Build Tool и его роли в работе инженера данных

В аналитике больших данных очень важно организовать эффективный, стабильный и надежный ETL-процесс, например, для загрузки данных в корпоративное хранилище или озеро. Реализовать такой ETL-конвейер можно с помощью специализированного инструмента dbt (Data Build Tool). Этот CLI-инструмент с открытым исходным кодом позволяет строить конвейеры преобразования данных со встроенной CI/CD-поддержкой и обеспечением качества, без фактической выгрузки исходных данных из источников.

DBT работает с теми данными, которые уже загружены в хранилище, компилируя SQL-запросы в код. Что важно для дата-инженера, dbt очень универсальный: он содержит адаптеры для всех распространенных хранилища данных. Поэтому можно переносить свои модели dbt для взаимодействия с другой СУБД, выполняя минимальную модификацию кода. А благодаря открытому исходному коду, в dbt можно добавлять свои собственные адаптеры. Так dbt позволяет быстро и удобно организовать различные задачи преобразования данных, чтобы запланировать их для запуска в автоматизированном и структурированном порядке.

Созданные пользователем dbt-модели запускаются через CLI-интерфейс и компилируются в SQL-запросы, абстрагируя материализацию в команды CREATE, INSERT, UPDATE, DELETE ALTER, GRANT и пр. Каждая SQL-модель включает SELECT-запрос, определяющий результат – итоговый набор данных. Скомпилированный SQL-код dbt-модели исполняется в хранилище в виде графа задач или направленный ациклический граф зависимостей. Если моделей несколько, dbt строит граф по конфигурациям всех моделей проекта, с учетом их взаимных ссылок друг на друга. Это позволяет запускать модели в нужной последовательности, выполняя конвейеры обработки данных и формируя витрины.

Кроме разработки самих моделей, dbt позволяет проверить предположения о результирующем наборе данных, включая тестирование уникальности, ссылочной целостности, соответствия списку допустимых значений. Также возможно добавление пользовательских тестов в виде SQL-запросов, например, для отслеживания % отклонения фактических показателей от заданных за конкретный период. Благодаря этому дата-инженер может найти в витринах данных нежелательные отклонения и ошибки.

Таким образом, dbt очень полезен в ежедневной работе инженера данных и умение эффективно использовать этот инструмент является полезной компетенцией современного инженера данных.

Программа курса "DBT: DATA BUILD TOOL ДЛЯ ИНЖЕНЕРОВ ДАННЫХ"

1. Общая информация

  • Введение в dbt
  • Основные концепции и принципы работы инструмента
  • Роль dbt в процессах обработки данных (ETL/ELT)

2. Инициализация проекта

  • Установка и настройка dbt
  • Создание нового проекта в dbt

3. Настройка проекта

  • Использование конфигурационных файлов
  • Управление проектом и зависимостями
  • Работа с переменными и параметрами проекта

4. Оркестрация Spark-приложений в Airflow

  • Создание и организация моделей данных
  • Использование SQL для трансформации и очистки данных
  • Обработка отношений между моделями

5. Конфиги и макросы

  • Использование конфигураций для моделей
  • Создание собственных макросов
  • Использование готовых макросов dbt для рутиных операций

6. Запуск моделей

  • Автоматизация процессов загрузки данных
  • Выполнение моделей и обновление результатов
  • Граф зависимостей моделей и их выполнение в правильной последовательности

7. Тесты

  • Проведение тестирования данных с помощью dbt
  • Создание и применение тестов для обеспечения корректности данных
  • Интеграция тестов в процесс разработки и обслуживания

Программа курса «DBT: Data Build Tool для инженеров данных»

Скачать программу курса «DBT: Data Build Tool для инженеров данных» в формате pdf

Укажите e-mail, на который будет оправлена ссылка для скачивания файла:

Кому нужно обучение по Data Build Tool для инженеров данных

Цель курса:

освоить эффективные приемы использования CLI-инструмента dbt, чтобы легко создавать, организовывать и поддерживать процессы обработки данных в ETL/ELT-конвейерах в различных аналитических платформах

Аудитория:

Предварительный уровень подготовки:

Чему вы научитесь

В результате обучения вы приобретете базовые знания и навыки, необходимые для эффективного применения dbt
в аналитике больших данных и организации ETL-конвейеров

Создавать и организовывать модели данных в dbt

Проводить трансформацию данных с помощью SQL и макросов

Работать с переменными, хуками и многими другими возможностями dbt

Создавать Spark-приложения

Использовать Spark SQL для анализа данных

Оркестрировать Spark-приложения в Airflow

Как проходят курсы

Офлайн-обучение или онлайн-курс проходят в формате интерактивного семинара: даже в дистанционном режиме с вами занимается живой преподаватель - рассказывает теорию, дает практические задания и проверяет результаты выполнения. В качестве примеров рассматриваются реальные бизнес-кейсы и лучшие практики разработки высоконагруженных приложений для анализа больших данных

Продолжительность курса: 16 ак. часов (4 дня по 4 ак. часа)

Соотношение теории к практике: 50/50

Инструментальные средства: для практических занятий используются бесплатные среды для разработки и решения с открытым исходным кодом

По завершении обучения вы получите

Успешно окончив курс "Data Build Tool для инженеров данных" в нашем лицензированном учебном центре «Школа Больших Данных»вы получите сертификат или удостоверение установленного образца, которые могут засчитываться в качестве свидетельств о повышении квалификации.

Кто проводит курс

Темирханов Зелимхан Ибрагимович
Преподаватель Школы Больших Данных

Темирханов Зелимхан

Российская академия народного хозяйства и государственной службы
при президенте РФ, ЭМИТ, цифровая экономика
Профессиональные компетенции:
  • Организация ETL-конвейеров (Apache Airflow, Spark)
  • Старший разработчик (Axenix ex. Accenture) дата-инженер
  • Сопровождение, интеграция данных с помощью Apache Hadoop (Hdfs, Kafka, Spark, Hive)

География наших клиентов

  • Москва
  • Санкт-Петербург
  • Нижний Новгород
  • Екатеринбург
  • Казань
  • Краснодар
  • Красноярск
  • Перьм
  • Челябинск
  • Новосибирск
  • Томск
  • Тверь
  • Саратов
  • Самара
  • Ростов-на-Дону
  • Хабаровск
  • Волгоград
  • Калуга
  • Якутск
  • Севастополь
  • Тольяти
  • Владивоссток
  • Тюмень
  • Южно-Сахалинск
  • Уфа
  • Ставрополь
  • Минск
  • Алматы
  • Астана
  • Ташкент
  • Душанбе
  • Бешкек

Контакты авторизированного учебного центра
«Школа Больших Данных»

Адрес:

127576, г. Москва, м. Алтуфьево,
Илимская ул. 5 корпус 2, офис 319, БЦ «Бизнес-Депо»

Телефон:

+7 (495) 414-11-21
+7 (995) 100-45-63

Часы работы:

Понедельник - Пятница: 09.00 – 18.00

Оставьте сообщение, и мы перезвоним вам
в течение рабочего дня
Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.
Или напишите нам в соц.сетях

Поиск по сайту