TRINO для инженеров данных

4-х дневный курс по работе с данными с помощьюTrino, учитывая многообразие источников данных.

Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
TRINO
03 февраля 2025
16 июня 2025
48 000 руб. 16 ак.часов
Количество дней: 4
Дистанционный
Регистрация

О продукте:

Trino — это массивно-параллельный распределенный колоночный SQL-движок для обработки больших данных из удаленных источников, прежде всего озер данных и КХД. Фокус на big data и аналитику определяет ключевые задачи оптимизатора Trino:

    • Эффективно работать с источниками данных. Например, стремиться по возможности уменьшить количество данных, передаваемых из источника.
    • Разумно планировать Join-ы.
    • Расставлять операторы Exchange для корректного и эффективного выполнения распределенных операций (Join, Aggregation, Window, и т.п.).

Цель курса:

Разобраться в программном продукте, понять его архитектуру и особенности, самостоятельно погонять запросы к данным, находящимся в разных источниках, научиться читать планы запросов и сопоставлять план с фактом в WEB UI.

Инструментальные средства: для практических занятий используются WEB интерфейс (Jupyter Lab).

Продолжительность: 16 ак. часов, 4 дня по 4 ак. часа (теория / практика),

Аудитория:

Инженеры данных, аналитики, BI аналитики и архитекторы.

Уровень подготовки:

    • Знание SQL,
    • желательно знание азов Python.

Программа курса «TRINO для инженеров данных»

1. Встречаем Trino – 4 часа

    • История возникновения
    • Архитектура
    • Установка и настройка
    • Встроенные коннекторы

Практическое задание

Запуск запросов бенчмарка TPC-DS, используя встроенный коннектор

2. Connector Based архитектура – 4 часа

    • Федеративные запросы
    • Источники, коннекторы и каталоги – разделение функций
    • Наиболее популярные источники данных и особенности работы с ними

Практическое задание

Практика в федеративных запросах и работа с данными, хранящимися в разных источниках (S3, PostgreSQL)

3. Работа с потоковыми данными – 2 часа

    • Apache Kafka и работа с ней в Trino

4. Исполнение кода в Trino – 2 часа

    • Координатор, обработчики, stage, task…
    • Разбираемся и читаем планы запросов

Практическое задание

Работа с потоковыми данными из Apache Kafka

5. Оптимизация запросов – 2 часа

    • оптимизация запросов в Trino
    • как помочь Trino в оптимизации запросов

6. Мониторинг и другие практические аспекты использования Trino – 2 часа

    • системный каталог
    • лог файлы
    • Trino WEB UI

Практическое финальное задание

Собираем все воедино: решаем финальную задачу.

Чему Вы научитесь:

В результате обучения вы приобретете базовые знания и навыки, необходимые для эффективного использования Trino и работы с большими объемами данных, хранящимися в различных типах источников. Поймете архитектуру Trino, научитесь читать и оптимизировать запросы, мониторить процесс их исполнения с использованием WEB UI.

Что Вы получите:

Окончив курс «TRINO для инженеров данных» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите удостоверение установленного образца, которое может засчитываться в качестве свидетельства о повышении квалификации.

Кто проводит курс

Королев Михаил
МГУ им. М.В. Ломоносова (Москва, 1992)
Профессиональные компетенции:

Чтобы записаться на курс TRINO: TRINO для инженеров данных позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.
Поиск по сайту