Основы Hadoop

3-дня практического обучения по установке и первоначальной настройке кластера Apache Hadoop — основы Big Data для начинающих и специалистов. Практическое обучение Хадуп для системных администраторов, архитекторов и разработчиков Big Data.

Курс «Основы Hadoop» представляет сокращенную версию курса «Администрирование кластера Hadoop» и проводится параллельно с данным курсом в 3 дня, согласно утвержденной программе, на платформе Arenadata Hadoop Community Edition или Apache Hadoop.

Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
INTR
по запросу
72 000 руб. 24 ак.часов
Количество дней: 3
Дистанционный
Регистрация

О продукте:

Apache Hadoop — это основная технология хранения и обработки больших данных (Big Data), свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ на кластерах из сотен и тысяч узлов. Сегодня вокруг Apache Hadoop существует целая экосистема связанных проектов и технологий, которые используются для интеллектуального анализа больших данных (Data Mining), в том числе с помощью машинного обучения (Machine Learning).

На практике Apache Hadoop используется во множестве компаний по всему миру для:

  • хранения множества информации в различных форматах;
  • сортировка огромных объемов данных и разбор содержимого чрезвычайно больших файлов;
  • аналитики поисковых запросов и пользовательских логов в высоконагруженных веб-сайтах и корпоративных информационных системах;
  • быстрая обработка графических данных.

В связи с политикой импортозамещения в качестве основного дистрибутива мы будем использовать дистрибутив Arenadata Hadoop Community Edition для проведения демонстраций и лабораторных   работ.

Лучшие практики (best practices) и сценарии (use cases) прикладного использования Хадуп рассматриваются в нашем курсе «Основы Hadoop» от лицензированного учебного центра «Школа Больших Данных».

Аудитория:

Курс «Основы Hadoop» ориентирован на начинающих и опытных ИТ-специалистов в области больших данных, которые хотят получить теоретические знания и прикладные навыки по установке, настройке и использованию кластера Apache Hadoop версии 3 на базе дистрибутива Arenadata Hadoop Community Edition (Cloudera Data Platform (CDP) Private Cloud для ознакомления). Практическое обучение Хадуп в «Школе Больших Данных» позволит системному администратору, архитектору и разработчику Big Data освоить следующие умения:

  • базовые установка и настройка кластера Hadoop в облаке
  • основные операции с файловой системой HDFS
  • запуск задач и управление ресурсами MapReduce и YARN
  • взаимодействие с компонентами экосистемы Hadoop: Spark, Hive, Sqoop, HBase, Zeppelin.

Уровень подготовки:

  • Базовый опыт работы в Linux (обязательно)
  • Опыт работы с любым текстовым редактором vi, nano

Практический курс «Основы Hadoop» содержит базовые сведения по установке, настройке и эксплуатации кластера Arenadata Hadoop версии 3. Обучение Хадуп в нашем учебном центре включает теоретический минимум, необходимый для эффективной практической работы с кластером Arenadata Hadoop. На курсе рассматриваются следующие темы:

  • выполнение основных операций в файловой системе HDFS;
  • запуск задач MapReduce;
  • основы управления ресурсами Hadoop с помощью планировщика задач YARN;
  • концепции использования Hadoop и компонентов экосистемы Hadoop (MapReduce, Apache Hive, Apache Sqoop и Apache Spark) для организации хранения больших данных и процессинга.

Продолжительность: 3 дня, 24 академических часа.
Соотношение теории к практике 50/50

О курсе:

Курс построен на сквозных практических примерах с тренировочными наборами данных для запуска пакетных (batch) и потоковых (streaming) задач в Hadoop кластере. Для каждого слушателя предоставляются индивидуальные кластера в облачной инфраструктуре Amazon Web Services (AWS), чтобы вы освоили все концепции и понятия на практике. Какой именно дистрибутив Хадуп выбрать, решаете вы: Arenadata Hadoop  или Cloudera Data Platform  (ознакомительно). Также на наших курсах обучения основам Hadoop вы познакомитесь с программным обеспечением по управлению кластером Arenadata Cluster Manager (Cloudera Manager опционально).

Примечание: с 1 июля 2022 года данный курс проводится по дистрибутиву Hadoop версии 3  Arenadata Hadoop Community Edition.

Для корпоративного формата обучения возможна выделенная программа по любой версии дистрибутива Hadoop (версия 2/3, Arenadata, ванильный Apache Hadoop, Cloudera- уточняйте у менеджера).

Программа курса «Основы Hadoop»

1. Основы Hadoop и Big Data

    • Что такое Big Data. Понимание проблемы Big Data
    • Эволюция систем распределенных вычислений Hadoop
    • Концепция Data Lake и pipelines
    • Схемы организации Data Lakes с использованием кластеров Hadoop, NoSQL и платформ потоковой обработки данных

2. Архитектура Apache Hadoop

    • Hadoop сервисы и основные компоненты. Name nodeDataNode.
    • YARN сервис-планировщик
    • Демоны HDFS
    • Отказоустойчивость и высокая доступность

3. Hadoop Distributed File System

    • Архитектура HDFS. Блоки HDFS
    • Основные команды работы с HDFS
    • Операции чтения и записи, назначения HDFS
    • Дисковые квоты. Поддержка компрессии
    • Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы
    • Импорт (загрузка) данных на HDFS

4. MapReduce

    • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2/3.
    • Ограничения и параметры MapReduce и YARN
    • Управление запуском пользовательских задач (jobs) под MapReduce.

5. Дизайн кластера Hadoop

    • Сравнение дистрибутивов и версий Hadoop 2/3 (Arenadata Hadoop, Cloudera Data Platform, Apache Hadoop): различия и ограничения
    • Требования программного и аппаратного обеспечения
    • Планирование кластера
    • Масштабирование кластера Hadoop.
    • Интеграция с другими решениями: streaming (DataFlow), NoSQL

6. Установка кластера Arenadata Hadoop

    • Оптимизация OS для узлов кластера
    • Установка Hadoop кластера с использованием ADCM (Arenadata Cluster Manager)
    • Выбор начальной конфигурации
    • Начальная конфигурация HDFS и MapReduce
    • Файлы логов и конфигурации
    • Установка Hadoop клиентов
    • Установка Hadoop кластера в облаке

7. Операции обслуживания кластера Hadoop

    • Дисковая подсистема
    • Квоты
    • Остановка, запуск, перезапуск (Graceful Shutdown)
    • Управление узлами
    • Управление обновлениями и создание локального репозитория

8. Оптимизация и управление ресурсами

    • Производительность. Файловая система. Data Node и Data layout и партиционирование, bucketing
    • Планировщики: FIFO Scheduler. Планировщик емкости (Capacity Scheduler). Гранулярное управление ресурсами (Fair Scheduler). Защита очередей и доминантное управление ресурсами DRF

9. Управление кластером Arenadata Hadoop с использованием ADCM

    • Основные операции и задачи ADCM
    • Мониторинг кластера.
    • Диагностика и разрешение проблем с ADCM

10. Инструментарий Apache Hadoop экосистемы

    • Графический интерфейс сервиса HUE/Zeppelin
    • Основы Apache Zookeeper
    • Введение в Hadoop SQL: Apache Hive, понятие Hive таблицы, установка Hive
    • Использование Apache Sqoop — установка и выполнение базовых операций
    • Обзор и назначение компонент: Apache Spark, Apache Solr, Apache HBase, Apache Phoenix, Apache Flink, Apache Airflow

Примерный список практических занятий по курсу «Основы Hadoop»:

  • Установка кластера и настройка Arenadata Cluster Manager (ADCM)
  • Настройка оффлайн репозитория для установки кластера Arenadata Hadoop и RHEL/Centos
  • Ручная установка 3х-узлового кластера Hadoop версии 3 с дистрибутива Arenadata Cluster Manager (ADCM) в облаке Amazon Web Services с использованием ADCM
  • Базовые операции обслуживания кластера Hadoop и файловые операции HDFS
  • Управление ресурсами и запуском задач с использованием YARN и MapReduce
  • Знакомство с SQL интерфейсом доступа Apache Hive
  • Выполнение базовых операций импорта/экспорта с применением Apache sqoop
  • Применение веб-интерфейса HUE/Zeppelin (опционально)

Примечание:
• Доступ к лабораторному стенду на Yandex Cloud предоставляется на время учебных курсов с 8:30 до 18:30 (возможно продление времени по запросу)
• Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей

Скачать программу курса «Основы Hadoop» в формате pdf

Отправить ссылку на:

Что Вы получите:

По завершении курса «Основы Hadoop» в нашем лицензированном учебном центре «Школа Больших Данных» вы получите удостоверение установленного образца, которое может засчитываться в качестве свидетельства о повышении квалификации.

Кто проводит курс

Комиссаренко Николай
Томский Политехнический Институт (Томск, 1994)
Профессиональные компетенции:
  • Сертифицированный тренер Arenadata (2019)
  • Построение Data Lake и аналитика больших данных на решениях Arenadata, Cloudera, HortonWorks, EMC (Hadoop, Isilon), Pivotal, облачные решения, cистемы хранения данных уровня enterprise, информационная безопасность
  • EMC Certified Instructor (2007)
  • Dell EMC Specialist – Cloud Architect (2006)
  • Dell EMC XtremeIO, Isilon – Storage Aministrator, Data Science Specialist (2006)
  • IT Service Manager (2006)
  • Certified Information System Security Professional (CISSP) (2006 -2010)
  • Certified Information Security Manager (CISM)

Чтобы записаться на курс INTR: Основы Hadoop позвоните нам по телефону +7 (495) 414-11-21 или заполните форму регистрации ниже.

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.
Поиск по сайту