Trino для инженеров данных
4-дневный курс по работе с данными с помощью распределённого SQL-движка Trino, на котором вы научитесь решать задачи, требующие быстрой аналитики разнородных данных без миграции в единое хранилище
Код курса | Даты начала курса | Стоимость обучения | Длительность обучения | Формат обучения |
---|---|---|---|---|
TRINO | 07 апреля 2025 16 июня 2025 |
48 000 руб. | 16 ак.часов Количество дней: 4 |
Дистанционный |
Регистрация |
О продукте:
Trino (ранее известный как Presto SQL)— это массивно-параллельный распределенный колоночный SQL-движок, разработанный для выполнения быстрых аналитических запросов к большим объёмам данных из разнородных источников. Он позволяет объединять данные из реляционных баз данных, NoSQL-хранилищ, облачных сервисов и других систем, обрабатывая их как единое целое. Trino стал отдельным проектом в 2020 году после разделения оригинального Presto на две ветки: PrestoDB и Trino (ранее PrestoSQL).
Фокус на big data и аналитику определяет ключевые задачи оптимизатора Trino:
-
- Эффективно работать с источниками данных. Например, стремиться по возможности уменьшить количество данных, передаваемых из источника.
- Разумно планировать Join-ы.
- Расставлять операторы Exchange для корректного и эффективного выполнения распределенных операций (Join, Aggregation, Window, и т.п.).
Цель курса:
— изучить программный продукт, включая его архитектуру и особенности;
— научиться самостоятельно выполнять запросы к данным из различных источников;
— освоить анализ планов выполнения запросов;
— научиться сопоставлять теоретические планы запросов с их фактическим выполнением через веб-интерфейс (WEB UI).
Инструментальные средства: для практических занятий используются WEB интерфейс (Jupyter Lab).
Продолжительность: 16 ак. часов, 4 дня по 4 ак. часа (теория / практика),
Аудитория:
Инженеры данных, аналитики, BI аналитики и архитекторы.
Уровень подготовки:
-
- Знание SQL,
- Знание основ Python.
Программа курса «TRINO для инженеров данных»
1. Встречаем Trino – 4 часа
-
- История возникновения
- Архитектура
- Установка и настройка
- Встроенные коннекторы
Практическое задание
Запуск запросов бенчмарка TPC-DS, используя встроенный коннектор
2. Connector Based архитектура – 4 часа
-
- Федеративные запросы
- Источники, коннекторы и каталоги – разделение функций
- Наиболее популярные источники данных и особенности работы с ними
Практическое задание
Практика в федеративных запросах и работа с данными, хранящимися в разных источниках (S3, PostgreSQL)
3. Работа с потоковыми данными – 2 часа
-
- Apache Kafka и работа с ней в Trino
4. Исполнение кода в Trino – 2 часа
-
- Координатор, обработчики, stage, task…
- Разбираемся и читаем планы запросов
Практическое задание
Работа с потоковыми данными из Apache Kafka
5. Оптимизация запросов – 2 часа
-
- оптимизация запросов в Trino
- как помочь Trino в оптимизации запросов
6. Мониторинг и другие практические аспекты использования Trino – 2 часа
-
- системный каталог
- лог файлы
- Trino WEB UI
Практическое финальное задание
Собираем все воедино: решаем финальную задачу.
Чему Вы научитесь:
В результате обучения вы приобретете базовые знания и навыки, необходимые для эффективного использования Trino и работы с большими объемами данных, хранящимися в различных типах источников. Поймете архитектуру Trino, научитесь читать и оптимизировать запросы, мониторить процесс их исполнения с использованием WEB UI.
Что Вы получите:
Окончив курс «TRINO для инженеров данных» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите удостоверение установленного образца, которое может засчитываться в качестве свидетельства о повышении квалификации.
Кто проводит курс
- Сертифицированный разработчик Spark и Hadoop (CCA Cloudera)
- Сертифицированный разработчик (Cloudera Certified Professional Data Engineer)
- Построение корпоративных хранилищ и озер данных (Cloudera CDH, Arenadata Hadoop, Arenadata DB)
- Организация ETL-конвейеров (Airflow, Spark, Flink, Trino)
- Обработка потоковых данных (Kafka, Kafka Streams, Flink)
- Поддержка и развитие инфраструктуры больших данных
Чтобы записаться на курс TRINO: Trino для инженеров данных позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.