Arenadata/Cloudera Impala Data Analytics
1-дневный практический курс по Arenadata/Cloudera Impala для специалистов, инженеров данных и аналитиков, работающих с SQL-on-Hadoop.
Код курса | Даты начала курса | Стоимость обучения | Длительность обучения | Формат обучения |
---|---|---|---|---|
IMPA | по запросу |
по запросу | ак.часов Количество дней: дней |
Дистанционный |
Регистрация |
О продукте:
Apache Impala — это сервис, который обеспечивает быстрые интерактивные SQL-запросы к данным, хранящимся в HDFS, HBase или S3-хранилище. Изначально — это коммерческий продукт от компании Cloudera. Был написан на языке С++ и распространяется по лицензии Apache 2.0. Импала также называют MPP-движком (Massively Parallel Processing), распределенной СУБД и даже базой данных стека SQL-on-Hadoop. Сейчас Apache Impala включен в экосистему Hadoop отечественного разработчика Arenadata.
Cloudera Impala используется для быстрой аналитики больших данных, хранящихся в Apache Hadoop (HDFS и HBase). Например, когда требуется оперативно ответить на сложный логический запрос, при поиске оптимального авиамаршрута или другой подобной задачи с непростой логистикой. Импала автоматически транслирует SQL-запрос в исполнительный код, позволяя работать с данными, хранящимися в HBase или HDFS, как с реляционными таблицами, формируя различные выборки и условные фильтрации, а также изменяя значение данных.
Как реализовать это на практике, расскажет краткосрочное обучение Arenadata/Cloudera Impala от лицензированного учебного центра «Школа Больших Данных«.
Аудитория:
Обучающие курсы Cloudera Impala предназначены для специалистов по SQL, инженеров данных и аналитиков, которые имеют опыт работы реляционными базами данных и хотят применить его к организации хранения, настройке импорта и экспорта данных с использованием Arenadata/Cloudera Impala в кластере Hadoop.
Уровень подготовки:
- Знание базовых команд Linux (опыт работы с командной строкой, файловой системой, POSIX, текстовыми редакторами vi, nano)
- Опыт написания запросов SQL
- Знание основ Hadoop
О курсе:
Длительность: 1 день, 8 академических часов
Соотношение теории к практике: 50/50
Практическое обучение Arenadata/Cloudera Impala для администраторов, инженеров и аналитиков данных, использующих Arenadata/Cloudera Impala, организовано в виде однодневного тренинга. Всего за 1 рабочий день вы изучите методы доступа к данным с использованием синтаксиса SQL для выполнения OLAP-запросов в распределенной среде в режиме near-realtime. Также за 8 академических часов вы освоите, как эффективно сделать загрузку и выгрузку данных с использованием метаданных в Hive Metastore.
Наши курсы Arenadata/Cloudera Impala включают сценарии интеграции Импала c Hive, Hbase, а также особенности исполнения запросов и JOIN операций. Практические занятия выполняются в Yandex Cloud и локальной кластерной системе с использованием дистрибутивов Arenadata Hadoop.
Программа курса «Arenadata/Cloudera Impala Data Analytics»
1. Введение в Arenadata/Cloudera Impala
-
- Введение в Arenadata/Cloudera Impala: архитектура и компоненты.
- Impala синтаксис, типы данных, написание запросов, загрузка данных, использование Hive Metastore.
- Лабораторная работа.
2. Интеграция Arenadata/Cloudera Impala
-
- Загрузка данных в таблицы Запросы через HBase.
- Оптимизации производительности с использование Partition, Buckets.
- Форматы файлов для Arenadata/Cloudera Impala (Parquet, ORC).
3. Оптимизация Impala запросов
-
- Сравнение JOIN операций для исполнения инструментами экосистемы Hadoop.
- Map JOIN. Comon JOIN. Skewed JOIN. Collocated JOIN.
- Оптимизация запросов.
4. Сценарии применения Impala
Отправить ссылку на:
Что Вы получите:
Окончив курс «Arenadata/Cloudera Impala Data Analytics» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите сертификат установленного образца, который может засчитываться в качестве свидетельства о повышении квалификации.
Чтобы записаться на курс IMPA: Arenadata/Cloudera Impala Data Analytics позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.