TRINO для инженеров данных
4-х дневный курс по работе с данными с помощьюTrino, учитывая многообразие источников данных.
Код курса | Даты начала курса | Стоимость обучения | Длительность обучения | Формат обучения |
---|---|---|---|---|
TRINO | 03 февраля 2025 16 июня 2025 |
48 000 руб. | 16 ак.часов Количество дней: 4 |
Дистанционный |
Регистрация |
О продукте:
Trino — это массивно-параллельный распределенный колоночный SQL-движок для обработки больших данных из удаленных источников, прежде всего озер данных и КХД. Фокус на big data и аналитику определяет ключевые задачи оптимизатора Trino:
-
- Эффективно работать с источниками данных. Например, стремиться по возможности уменьшить количество данных, передаваемых из источника.
- Разумно планировать Join-ы.
- Расставлять операторы Exchange для корректного и эффективного выполнения распределенных операций (Join, Aggregation, Window, и т.п.).
Цель курса:
Разобраться в программном продукте, понять его архитектуру и особенности, самостоятельно погонять запросы к данным, находящимся в разных источниках, научиться читать планы запросов и сопоставлять план с фактом в WEB UI.
Инструментальные средства: для практических занятий используются WEB интерфейс (Jupyter Lab).
Продолжительность: 16 ак. часов, 4 дня по 4 ак. часа (теория / практика),
Аудитория:
Инженеры данных, аналитики, BI аналитики и архитекторы.
Уровень подготовки:
-
- Знание SQL,
- желательно знание азов Python.
Программа курса «TRINO для инженеров данных»
1. Встречаем Trino – 4 часа
-
- История возникновения
- Архитектура
- Установка и настройка
- Встроенные коннекторы
Практическое задание
Запуск запросов бенчмарка TPC-DS, используя встроенный коннектор
2. Connector Based архитектура – 4 часа
-
- Федеративные запросы
- Источники, коннекторы и каталоги – разделение функций
- Наиболее популярные источники данных и особенности работы с ними
Практическое задание
Практика в федеративных запросах и работа с данными, хранящимися в разных источниках (S3, PostgreSQL)
3. Работа с потоковыми данными – 2 часа
-
- Apache Kafka и работа с ней в Trino
4. Исполнение кода в Trino – 2 часа
-
- Координатор, обработчики, stage, task…
- Разбираемся и читаем планы запросов
Практическое задание
Работа с потоковыми данными из Apache Kafka
5. Оптимизация запросов – 2 часа
-
- оптимизация запросов в Trino
- как помочь Trino в оптимизации запросов
6. Мониторинг и другие практические аспекты использования Trino – 2 часа
-
- системный каталог
- лог файлы
- Trino WEB UI
Практическое финальное задание
Собираем все воедино: решаем финальную задачу.
Чему Вы научитесь:
В результате обучения вы приобретете базовые знания и навыки, необходимые для эффективного использования Trino и работы с большими объемами данных, хранящимися в различных типах источников. Поймете архитектуру Trino, научитесь читать и оптимизировать запросы, мониторить процесс их исполнения с использованием WEB UI.
Что Вы получите:
Окончив курс «TRINO для инженеров данных» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите удостоверение установленного образца, которое может засчитываться в качестве свидетельства о повышении квалификации.
Кто проводит курс
Профессиональные компетенции:
- Сертифицированный разработчик Spark и Hadoop (CCA Cloudera)
- Сертифицированный разработчик (Cloudera Certified Professional Data Engineer)
- Построение корпоративных хранилищ и озер данных (Cloudera CDH, Hadoop)
- Организация ETL-конвейеров (ApacheAirflow, Spark, Apache Livy)
- Поддержка инфраструктуры больших данных (Apache Hive,HBase, Kafka,Elasticsearch)
- Руководитель проектов с корпоративными данными
- Ведущий Data Engineer АО “Альфастрахование”, Москва
Чтобы записаться на курс TRINO: TRINO для инженеров данных позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.