Hadoop SQL Hive администратор
1-дневный практический тренинг по настройке доступа к большим данных в распределенной файловой системе HDFS с помощью интерфейса Hadoop SQL Hive.
Код курса | Даты начала курса | Стоимость обучения | Длительность обучения | Формат обучения |
---|---|---|---|---|
HIVE | по запросу |
по запросу | ак.часов Количество дней: дней |
Дистанционный |
Регистрация |
О продукте:
Apache Hive — это SQL-интерфейс доступа к данным, хранящимся в Hadoop (HDFS, HBase). Hive позволяет выполнять запросы, агрегировать и анализировать данные используя SQL-синтаксис. Hive использует технологию MapReduce, преобразуя SQL-запросы в задания Apache Spark или Hadoop.
На практике Apache Hive используется инженерами данных (Data Engineer) в ETL-процессах для длительных пакетных заданий на больших наборах данных. Hive не поддерживает интерактивное выполнение запросов в режиме реального времени, а потому не может использоваться в OLTP-задачах.
Ключевыми преимуществами Apache Hive являются следующие:
- масштабируемость — динамическое расширение при добавлении машины к кластеру Hadoop;
- расширяемость за счет MapReduce и определяемых пользователем функций (UDF/UDAF/UDTF;
- отказоустойчивость благодаря сохранению всех промежуточных результатов;
- поддержка разных форматов данных — TEXTFILE, Sequence, ORC, RCFILE, а также Parquet (с помощью плагина в версиях позже 0.10).
Как эффективно использовать эти достоинства и другие свойства Hive в production, рассматривается в нашем практическом курсе обучения «Hadoop SQL-администратор».
Аудитория:
Обучение Hive (курс Hadoop SQL) ориентировано на аналитиков, инженеров данных, разработчиков Big Data и других ИТ-специалистов, которые хотят применить опыт работы с реляционными базами данных для организации хранения, настройки импорта и экспорта данных в кластере Hadoop с использованием Apache Hive.
Уровень подготовки:
- Знание базовых команд Linux (опыт работы с командной строкой, файловой системой, POSIX, текстовыми редакторами vi, nano)
- Начальный опыт работы с SQL
О курсе:
Продолжительность: 1 день, 8 академических часов.
Соотношение теории к практике 40/60
Курс представляет собой практический однодневный тренинг по Apache Hive для аналитиков и инженеров данных, а также администраторов и разработчиков Big Data. Рассматриваются методы доступа к данным с использованием HiveQL, загрузка и выгрузка данных в Hive, HDFS, реляционные БД и NoSQL. Изучаются нюансы SQL-доступа к неструктурированным данным с использованием Apache Hive и Cloudera Impala, включая некоторые аспекты курса по Apache HBase и Spark SQL.
Программа обучения включает модули организации и оптимизации хранения данных с использованием Hive на HDFS, в т.ч. использование и оптимизация запросов операций JOIN и SELECT, оптимизация доступа с помощью партиций и buckets. Разбираются вопросы интеграции с другими инструментами экосистемы Hadoop (Apache HBase, Spark SQL, Sqoop) и Cloudera Impala. Практические занятия выполняются в Yandex Cloud и локальной кластерной системе на базе дистрибутивов Cloudera Hadoop, HortonWorks, Arenadata.
Программа курса «Hadoop SQL Hive администратор»
1. Основные концепции Apache Hive
-
- Архитектура Hive.
- Инструменты администирования и исполнения запросов: beeline/Hive shell & HUE Query Editor.
- Схема чтения и записи в Hive.
- Структура и формат хранения файлов HIVE.
- Синтаксис HiveQL. Hive DDL и DML операции.
2. Импорт и экспорт в Apache Hive
-
- Загрузка данных в таблицы Hive.
- Внешние и управляемые таблицы в HiveQL.
- Оптимизации производительности с использование Partition, Buckets.
- Импорт/экспорт данных БД.
- Форматы хранения данных и применение компрессии.
3. Реализация JOIN в Hive
-
- Map JOIN.
- Comon JOIN.
- Skewed JOIN.
- Collocated JOIN.
4. Advanced HiveQL и Hadoop SQL
-
- Интеграция Hive с Pig, Impala, Hbase, Spark, Sqoop.
- Thrift сервер
- User Defined Functions
- Hive на Spark.
- Hive на Tez
5. Сценарии применения Hive
Практические лабораторные работы на кластере в Yandex Cloud по настройке партиционирования больших данных на файловой системе HDFS, оптимизация исполнения запросов и интеграция с существующими решениями Cloudera Impala, HBase, Spark SQL и Sqoop.
Отправить ссылку на:
Что Вы получите:
Окончив курс «Hadoop SQL Hive администратор» в нашем лицензированном учебном центре «Школа Больших Данных», вы получите сертификат установленного образца, который может засчитываться в качестве свидетельства о повышении квалификации.
Чтобы записаться на курс HIVE: Hadoop SQL Hive администратор позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.