TRINO для инженеров данных
Если данных много, да они еще и разбросаны по разным источникам: Trino позволит работать с этим многообразием параллельно и с помощью известного всем SQL.
Trino — это массивно-параллельный распределенный колоночный SQL-движок для обработки больших данных из удаленных источников, прежде всего озер данных и КХД. Фокус на big data и аналитику определяет ключевые задачи оптимизатора Trino:
- Эффективно работать с источниками данных. Например, стремиться по возможности уменьшить количество данных, передаваемых из источника.
- Разумно планировать Join-ы.
- Расставлять операторы Exchange для корректного и эффективного выполнения распределенных операций (Join, Aggregation, Window, и т.п.).
Код курса | Даты начала курса | Стоимость обучения | Длительность обучения | Формат обучения |
---|---|---|---|---|
TRINO | по запросу |
по запросу | ак.часов Количество дней: дней |
Дистанционный |
Регистрация |
Цель курса: разобраться в программном продукте, понять его архитектуру и особенности, самостоятельно погонять запросы к данным, находящимся в разных источниках, научиться читать планы запросов и сопоставлять план с фактом в WEB UI.
Продолжительность: 16 ак. часов, 4 дня по 4 ак. часа (теория / практика),
Аудитория: инженеры данных, аналитики и BI аналитики, архитекторы.
Требования к предварительному уровню подготовки: знание SQL, желательно знание азов Python.
Инструментальные средства: для практических занятий используются WEB интерфейс (Jupyter Lab).
В результате обучениявы приобретете базовые знания и навыки, необходимые для эффективного использования Trino и работы с большими объемами данных, хранящимися в различных типах источников. Поймете архитектуру Trino, научитесь читать и оптимизировать запросы, мониторить процесс их исполнения с использованием WEB UI.
- Встречаем Trino – 4 часа
- История возникновения
- Архитектура
- Установка и настройка
- Встроенные коннекторы
Практическое задание – запуск запросов бенчмарка TPC-DS, используя встроенный коннектор
- Connector Based архитектура – 4 часа
- Федеративные запросы
- Источники, коннекторы и каталоги – разделение функций
- Наиболее популярные источники данных и особенности работы с ними
Практическое задание – практика в федеративных запросах и работа с данными, хранящимися в разных источниках (S3, PostgreSQL)
- Работа с потоковыми данными – 2 часа
- Apache Kafka и работа с ней в Trino
- Исполнение кода в Trino – 2 часа
- Координатор, обработчики, stage, task…
- Разбираемся и читаем планы запросов
Практическое задание – работа с потоковыми данными из Apache Kafka
- Оптимизация запросов – 2 часа
- оптимизация запросов в Trino
- как помочь Trino в оптимизации запросов
- Мониторинг и другие практические аспекты использования Trino – 2 часа
- системный каталог
- лог файлы
- Trino WEB UI
Практическое финальное задание – собираем все воедино: решаем финальную задачу.
Чтобы записаться на курс TRINO: TRINO для инженеров данных позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.