Все курсы

Курс Администрирование кластера Hadoop Cloudera Arenadata HortonWorks

Авторский курс администрирование кластера Arenadata Hadoop

Код курса Даты начала курса Стоимость обучения Длительность обучения Формат обучения
HADM
22 апреля 2024
08 июля 2024
28 октября 2024
120 000 руб. 40 ак.часов Дистанционный
Регистрация

5 дней практического обучения работе с кластером Hadoop: установка и настройка,  обеспечение безопасности (Kerberos, Apache Ranger — ознакомительно), мониторинг, репликация и резервное копирование,  взаимодействие с компонентами экосистемы Hadoop (Apache Spark, Hive, Sqoop, HBase), работа с HDFS и MapReduce.

О курсе "Администрирование кластера Hadoop"

Продолжительность: 5 дней, 40 академических часов.
Соотношение теории к практике 40/60

Сегодня Apache Hadoop является самой популярной открытой платформой для распределенных вычислений и главной технологией больших данных (Big Data). Данный курс для администраторов Big Data содержит всю необходимую теоретическую информацию и практические задания по планированию и развертыванию распределенных вычислительных кластеров на базе дистрибутивов Arenadata Hadoop версии 3. Рассматриваются процессы мониторинга и оптимизации производительности системы, резервному  копированию и аварийному восстановлению узлов кластера и отдельных компонент. Особое внимание уделено настройкам безопасности системы Kerberos (Active Directory и MIT/FreeIPA)   на базе Hadoop.

Курс администрирование кластера Hadoop построен на сквозных практических примерах развертывания и администрирования распределенной вычислительной среды: локально и в облачной инфраструктуре. Вы изучите особенности использования компонент Hadoop для запуска задач распределенных вычислений с  тестовыми данными. Практические занятия выполняются в кластерной среде Amazon Web Services/Yandex с использованием Apache Hadoop версии 3 на базе дистрибутива Arenadata Hadoop Community Edition (Cloudera Data Platform (CDP) Private Cloud) или Apache Hadoop , а также программного обеспечения управления кластером Arenadata Cluster Manager ADCM (Cloudera Manager)

Примечание: с 1 июля 2022 года данный курс проводится  по дистрибутиву Hadoop версии 3  Arenadata Hadoop Community Edition.

Для корпоративного формата обучения возможна выделенная программа по любой версии дистрибутива Hadoop (версия 2/3 , Arenadata, ванильный Apache Hadoop, Cloudera- уточняйте у менеджера).

Проигрывать видео

Кому нужны курсы по администрированию Hadoop

Практический курс Администрирование кластера Hadoop предназначен для системных администраторов, архитекторов, DevOps-инженеров и разработчиков Big Data, которые хотят освоить прикладные навыки установки, конфигурирования, обслуживания, управления и администрирования кластера Hadoop на базе дистрибутивов Arenadata Hadoop и Arenadata Cluster Manager (ADCM).

Предварительный уровень подготовки:

  • Знание базовых команд и опыт работы в Linux (обязательно)
  • Опыт работы с любым текстовым редактором vi, nano

По окончании  курсов по администрированию Hadoop в нашем лицензированном учебном центре «Школа Больших Данных» вы получите сертификат или удостоверение установленного образца, которые могут засчитываться в качестве свидетельств о повышении квалификации.

Программа курса "Администрирование кластера Hadoop"

  1. Введение в Big Data
    • Что такое BigData. Понимание проблемы Big Data
    • Эволюция систем распределенных вычислений Hadoop
    • Принципы формирования Data Lake и pipelines
    • Схемы организации Data Lakes с использованием кластеров Hadoop, NoSQL и платформ потоковой обработки данных
  2. Архитектура Apache Hadoop
    • Hadoop сервисы и основные компоненты. Name node. DataNode.
    • YARN сервис-планировщик
    • Демоны HDFS
    • Отказоустойчивость и высокая доступность
  3. Hadoop Distributed File System
    • Архитектура HDFS. Блоки HDFS.
    • Основные команды работы с HDFS.
    • Операции чтения и записи, назначения HDFS
    • Дисковые квоты. Поддержка компрессии
    • Основные форматы хранения данных TXT, XML, JSON, AVRO, ORC, Parquet, Sequence файлы
    • Импорт (загрузка) данных на HDFS
    • Организация Tiering для хранения данных
    • Архивное хранение HDFS
    • Локальное чтение и распределенное кэширование
  4. Map Reduce
    • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce 3
    • Ограничения и параметры MapReduce и YARN
    • Управление запуском пользовательских задач (jobs) под MapReduce
  5. Дизайн кластера Hadoop
    • Сравнение дистрибутивов и версий Hadoop 2/3 (Arenadata Hadoop, Cloudera Distributed Hadoop CDP, Apache Hadoop): различия и ограничения
    • Требования программного и аппаратного обеспечения
    • Планирование кластера
    • Масштабирование кластера Hadoop.
    • Сравнение Cloud решений для Hadoop. Amazon EMR/ Yandex Cloud
    • Миграция данных и репликация данных
  6. Установка кластера Arenadata Hadoop
    • Оптимизация OS для узлов кластера
    • Установка Hadoop-кластера с использованием ADCM
    • Выбор начальной конфигурации
    • Начальная конфигурация HDFS и MapReduce
    • Файлы логов и конфигураций
    • Установка Hadoop клиентов
    • Установка Hadoop кластера в облаке
    • Автоматические варианты установки
    • Установка и настройка кластера Hadoop в изолированном окружении (offline).
  7. Операции обслуживания кластера Hadoop
    • Дисковая подсистема
    • Квоты
    • Остановка, запуск, перезапуск (Graceful Shutdown)
    • Управление узлами
    • Управление обновлениями и создание локального репозитория
  8. Оптимизация и управление ресурсами
    • Поиск узких мест
    • Производительность. Файловая система. Data Node и Data layout и партиционирование, bucketing
    • Планировщики: FIFO scheduler. Планировщик емкости (Capacity Scheduler). Гранулярное управление ресурсами (Fair Scheduler). Защита очередей и доминантное управление ресурсами DRF.
    • Особенности управления ресурсами для разных дистрибутивов
  9. Управление кластером Hadoop с использованием Arenadata Cluster Manager (Cloudera Manager)
    • Основные операции и задачи c использованием ADCM (ClouderaManager)
    • Мониторинг кластера. Работа с логами и сервисами
    • Диагностика и разрешение проблем с ADCM
    • Обзор Apache Zookeeper
  10. Безопасность Apache Hadoop
    • Безопасность по умолчанию
    • Многопользовательский режим
    • Аутентификация и авторизация с использованием Active Directory(Microsoft), REALM MIT/FreeIPA: Kerberos, keytabs, principals. Установка и конфигурирование Kerberos в Hadoop
    • Обзор возможностей компонент безопасности Apache Ranger, Apache Knox, Apache Atlas
    • Резервное копирование и аварийное восстановление
    • Репликация данных и snapshoting. Конфигурирование высокой доступности NameNode (HA)
    • Best practices Cloudera/ Arenadata
  11. Troubleshooting
    • Data Node
    • Name Node
    • Восстановление Name Node
  12. Инструментарий Apache Hadoop экосистемы
    • Графический интерфейс сервиса HUE/Zeppelin 
    • Основы  Apache Zookeeper
    • Введение в Hadoop SQL: Apache Hive, понятие Hive-таблицы, установка Hive
    • Использование Apache Sqoop — установка и выполнение базовых операций
    • Обзор и назначение компонент: Apache Spark, Apache Solr, Apache HBase, Apache Phoenix, Apache Airflow, Apache Flink

Примерный список практических занятий:

  • Установка кластера и настройка Arenadata Cluster Manager (ADCM)
  • Настройка оффлайн репозитория для установки кластера Arenadata Hadoop и RHEL/Centos
  • Ручная установка 3х-узлового кластера Hadoop версии 3 с дистрибутива Arenadata Cluster Manager (ADCM)  в облаке Amazon Web Services с использованием ADCM
  • Базовые операции с кластером Hadoop и файловые операции HDFS.
  • Управление ресурсами и запуском задач с использованием YARN, Map Reduce/Tez
  • Управление кластером с использованием Arenadata Cluster Manager (развертывание сервисов, репликация, мониторинг, alerting и т.д.)
  • Настройка кластера мониторинга
  • Конфигурирование системы аутентификации Kerberos для кластера Hadoop под управление Arenadata Cluster Manager (опционально, по возможности)
  • Установка и выполнение базовых операций в Apache Hive, Apache Sqoop
  • Выполнение задач в веб-интерфейсе HUE/Apache Zeppelin
  • HA высокая доступность (High Availablility) NameNode ( опционально) и YARN (ресурс-менеджер) .

Примечание:
Доступ к лабораторному стенду на Yandex Cloud предоставляется на время учебных курсов с 8:30 до 18:30 (возможно продление времени по запросу).
Практические занятия с меткой (опционально) выполняются по желанию и при наличии технической возможности и свободного времени у слушателей

Возможно использование других версий дистрибутива для проведения курса для корпоративного формата обучения ( Cloudera Distributed Hadoop, Apache Hadoop, Arenadata Hadoop)

Программа курса «HADM: Администрирование кластера Hadoop»

Скачать программу курса по Администрированию кластера Hadoop в формате pdf

Отправить ссылку на:

Кто проводит курс

Преподаватель Школы Больших Данных Комиссаренко Николай
Преподаватель Школы Больших Данных

Комиссаренко Николай

Томский Политехнический Институт (Томск, 1994)
Профессиональные компетенции:
  • Сертифицированный тренер Arenadata (2019)
  • Построение Data Lake и аналитика больших данных на решениях Arenadata, Cloudera, HortonWorks, EMC (Hadoop, Isilon), Pivotal, облачные решения, cистемы хранения данных уровня enterprise, информационная безопасность
  • EMC Certified Instructor (2007)
  • Dell EMC Specialist – Cloud Architect (2006)
  • Dell EMC XtremeIO, Isilon – Storage Aministrator, Data Science Specialist (2006)
  • IT Service Manager (2006)
  • Certified Information System Security Professional (CISSP) (2006 -2010)
  • Certified Information Security Manager (CISM)

Отзывы наших клиентов о курсе

Если у Вас остались вопросы Вы можете позвонить к нам по телефону +7 (495) 414-11-21  или заполнить форму обратной связи на сайте.
Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.
Поиск по сайту