TRINO для инженеров данных

Если данных много, да они еще и разбросаны по разным источникам: Trino позволит работать с этим многообразием параллельно и с помощью известного всем SQL.

Trino — это массивно-параллельный распределенный колоночный SQL-движок для обработки больших данных из удаленных источников, прежде всего озер данных и КХД. Фокус на big data и аналитику определяет ключевые задачи оптимизатора Trino:

  • Эффективно работать с источниками данных. Например, стремиться по возможности уменьшить количество данных, передаваемых из источника.
  • Разумно планировать Join-ы.
  • Расставлять операторы Exchange для корректного и эффективного выполнения распределенных операций (Join, Aggregation, Window, и т.п.).
Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
TRINO
по запросу
по запросу ак.часов
Количество дней: дней
Дистанционный
Регистрация

Цель курса: разобраться в программном продукте, понять его архитектуру и особенности, самостоятельно погонять запросы к данным, находящимся в разных источниках, научиться читать планы запросов и сопоставлять план с фактом в WEB UI.

Продолжительность: 16 ак. часов, 4 дня по 4 ак. часа (теория / практика),

Аудитория: инженеры данных, аналитики и BI аналитики, архитекторы.

Требования к предварительному уровню подготовки: знание SQL, желательно знание азов Python.

Инструментальные средства: для практических занятий используются WEB интерфейс (Jupyter Lab).

В результате обучениявы приобретете базовые знания и навыки, необходимые для эффективного использования Trino и работы с большими объемами данных, хранящимися в различных типах источников. Поймете архитектуру Trino, научитесь читать и оптимизировать запросы, мониторить процесс их исполнения с использованием WEB UI.

  1. Встречаем Trino 4 часа
    • История возникновения
    • Архитектура
    • Установка и настройка
    • Встроенные коннекторы

Практическое задание – запуск запросов бенчмарка TPC-DS, используя встроенный коннектор

  1. Connector Based архитектура – 4 часа
    • Федеративные запросы
    • Источники, коннекторы и каталоги – разделение функций
    • Наиболее популярные источники данных и особенности работы с ними

Практическое задание – практика в федеративных запросах и работа с данными, хранящимися в разных источниках (S3, PostgreSQL)

  1. Работа с потоковыми данными – 2 часа
    • Apache Kafka и работа с ней в Trino

 

  1. Исполнение кода в Trino – 2 часа
    • Координатор, обработчики, stage, task…
    • Разбираемся и читаем планы запросов

Практическое задание – работа с потоковыми данными из Apache Kafka

  1. Оптимизация запросов – 2 часа
    • оптимизация запросов в Trino
    • как помочь Trino в оптимизации запросов
  2. Мониторинг и другие практические аспекты использования Trino – 2 часа
    • системный каталог
    • лог файлы
    • Trino WEB UI

 

Практическое финальное задание – собираем все воедино: решаем финальную задачу.

Чтобы записаться на курс TRINO: TRINO для инженеров данных позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.
Поиск по сайту