Как управлять Greenplum с VMware Command Center

VMware Greenplum Command Center vs Arenadata Command Center (ADCC) для Arenadata DB, администрирование и мониторинг Greenplum Arenadata DB, настройка Greenplum и Arenadata DB, администрирование Greenplum Arenadata DB, мониторинг системных метрик и SQL-запросов в Arenadata DB и Greenplum, курсы Greenplum Arenadata DB, Greenplum для дата-инженера и администратора курс обучение, обучение Greenplum, Greenplum инженеров данных и архитекторов СУБД, Greenplum особенности хранения данных, хранение и аналитика больших данных с Greenplum, PostgreSQL в больших данных примеры обучение курсы, Школа Больших Данных Учебный Центр Коммерсант

Что такое VMware Greenplum Command Center, как использовать этот инструмент для эффективного управления MPP-СУБД и чем он отличается от Arenadata Command Center для Arenadata DB.

Что такое центр управления Greenplum от VMware

VMware Greenplum Command Center — это инструмент управления, который отслеживает показатели производительности системы, анализирует состояние кластера и позволяет администраторам баз данных выполнять задачи управления в среде VMware Greenplum. Этот центр управления предоставляет веб-GUI в виде встроенного в браузер графической консоли HTML5 для просмотра системных показателей Greenplum и выполнения определенных задач по администрированию, включая следующие функциональные возможности:

  • интерактивный обзор системных показателей в реальном времени и синхронизированные диаграммы истории;
  • подробная статистика в реальном времени по кластеру и по серверам;
  • мониторинг SQL-запросов (все выполняемые запросы, ожидающие выполнения и заблокированные блокировками, удерживаемыми другими запросами) с их метриками и планами выполнения;
  • управление рабочей нагрузкой, параллелизмом и распределением ресурсов ЦП и памяти;
  • управление разрешениями, чтобы просматривать или отменять свои или чужие SQL-запросы;
  • просмотр и редактирование  файла конфигурации pg_hba.conf для аутентификации на основе хоста;
  • просмотр статуса любого сегмента со сводками и подробностями;
  • просмотр использования хранилища со сводными данными и подробностями по каталогу данных сегмента.

Веб-сервер Greenplum Command Center и серверное приложение могут работать на хосте координатора или резервном хосте координатора, что более предпочтительно. Веб-сервер gpccws — это собственный HTTP-сервер, разработанный специально для Command Center. Веб-приложение написано на языке Go.

Архитектура VMware Greenplum Command Center
Архитектура VMware Greenplum Command Center

Веб-сервер Command Center выполняет аутентификацию пользователей с помощью системы аутентификации VMware Greenplum. Администраторы Greenplum могут редактировать файл аутентификации на основе хоста pg_hba.conf в консоли центра управления или настроить аутентификацию пользователей в среде Kerberos.

Command Center определяет четыре уровня авторизации пользователей для управления доступом пользователей к инструменту мониторинга SQL-запросов (Query Monitor), а также к административной информации и операциям. Авторизация пользователя осуществляется в административной области пользовательского веб-интерфейса командного центра.

Центр управления отображает информацию, полученную из нескольких источников:

  • база данных мониторинга производительности VMware Greenplum (gpperfmon);
  • учет процессов операционной системы;
  • таблицы системного каталога VMware Greenplum;
  • расширение сбора метрик запросов в реальном времени;
  • расширение для управления рабочей нагрузкой.

VMware Greenplum позволяет собирать показатели производительности и отслеживать выполнение SQL-запросов. Базу данных мониторинга производительности и расширение сбора метрик запросов развертывают агенты — процессы, выполняемые на каждом хосте для сбора метрик. Агенты gpperfmon пересылают собранные данные агенту координатора VMware Greenplum. Агенты метрик запросов в реальном времени отправляют собранные данные непосредственно в RPC-порт центра управления. Агенты также собирают данные из операционной системы хоста, чтобы можно было соотнести производительность SQL-запросов с использованием ЦП и памяти, а также отслеживать потребление дискового пространства в центре управления. Как это работает, рассмотрим далее.

Особенности работы VMware Greenplum Command Center

Как уже было отмечено ранее, в базе данных мониторинга производительности gpperfmon хранятся текущие и исторические состояния запросов, а также системная информация, полученная от агентов, работающих на узлах координатора и сегмента. Центр управления Greenplum использует gpperfmon только для исторических данных вместе с актуальными метриками запросов в реальном времени. VMware Greenplum отправляет UDP-пакеты на различных этапах выполнения SQL-запроса. На каждом узле сегмента работает процесс gpsmon, который собирает данные и периодически, по умолчанию каждые 15 секунд, пересылает их gpmmon-агенту на узле-координаторе. Агент на хосте-координаторе получает данные и добавляет их в базу данных gpperfmon.

База данных Командного центра состоит из трех наборов таблиц:

  • текущие данные (now) о текущих системных метриках, таких как активные запросы;
  • исторические таблицы (history) хранят данные об исторических показателях;
  • переходные таблицы (tail) предназначены для данных в процессе перехода. Эти таблицы предназначены только для внутреннего (системного) использования и не должны запрашиваться пользователями.

Данные now и tail хранятся в виде текстовых файлов в файловой системе хоста координатора, а база данных командного центра получает к ним доступ через внешние таблицы. Таблицы истории — это обычные таблицы в базе данных gpperfmon, к которым можно выполнять SQL-запросы через центр управления Greenplum.

Веб-интерфейс VMware Greenplum Command Center
Веб-интерфейс VMware Greenplum Command Center

Чтобы создать базу данных gpperfmon и включить агенты gpperfmon на узлах координатора и сегмента, в VMware Greenplum есть утилита управления gpperfmon_install. Однако, она доступна лишь в 6-ой версии MPP-СУБД и не доступна в VMware Greenplum 7. Также утилита gpperfmon_install не поддерживается в операционной системе Red Hat Linux 8.

Данные, собранные с помощью сбора метрик запросов в реальном времени, являются более подробными и актуальными, чем статистика, записанная в базе данных gpperfmon. Благодаря актуальному мониторингу SQL-запросов пользователи центра управления Greenplum могут наблюдать за их выполнением и, при наличии достаточных разрешений, отменять проблемные запросы, чтобы позволить другим запросам завершиться.

Расширение метрик запросов VMware Greenplum и агент сбора метрик работают вместе для сбора метрик в реальном времени и обновления приложения Command Center. VMware Greenplum вызывает расширение метрик запроса при первой отправке запроса, при изменении его статуса, а также при инициализации, запуске или завершении узла в его плане выполнения. Расширение метрик SQL-запроса отправляет метрики агенту сбора метрик, работающему на каждом узле сегмента. Расширение также собирает информацию об удержанных запросах блокировок, позволяя видеть, какие запросы содержат блокировки, блокирующие другие запросы. Агент отправляет метрики в RPC-порт центра управления Greenplum.

Расширение metrics_collection входит в состав VMware Greenplum и включается в параметре gp_enable_query_metrics конфигурации сервера с перезапуском кластера. Агент сбора метрик устанавливается на каждый хост при установке Greenplum Command Center. Приложение Command Center контролирует агент и при необходимости перезапускает его.

Рабочие нагрузки устанавливают ограничения на параллелизм, память и ресурсы ЦП для транзакций базы данных, которыми они управляют. Рабочая нагрузка Greenplum Command Center соответствует группе ресурсов VMware Greenplum, но добавляет дополнительные возможности, недоступные для групп ресурсов. В частности, центр управления предоставляет администраторам большую гибкость в назначении транзакций рабочим нагрузкам. Каждая роль VMware Greenplum назначается одной группе ресурсов, и по умолчанию транзакции управляются группой ресурсов этой роли. С помощью управления рабочей нагрузкой Command Center администраторы могут определять критерии назначения транзакций рабочим нагрузкам на основе атрибутов, отличных от роли, отправляющей транзакцию. В настоящее время критерии назначения могут оценивать теги и роли запроса в сочетании с тегами запроса.

Тег запроса (query) — это пара ключ-значение, определенная в  параметре сеанса базы данных gpcc.query_tags. Параметр имеет формат <tag1>=<value1>;<tag2>=<value2>, где теги и значения являются значениями, определяемыми пользователем. Например, если нужно запускать ETL-операции в рабочей нагрузке с названием etl, можно определить тег с названием xact-type и установить для него значение etl: xact-type=etl. Параметр gpcc.query_tags можно установить как параметр подключения на клиентах VMware Greenplum или с помощью команды SET внутри сеанса после установления соединения, например:

SET gpcc.query_tags='xact-type=etl'

Расширение gp_wlm обеспечивает поддержку рабочих нагрузок Command Center. Изначально VMware Greenplum использует очереди ресурсов для управления ресурсами. Для использования рабочих нагрузок Command Center необходимо включить группы ресурсов в VMware Greenplum. Группы ресурсов основаны на службе контрольных групп управления Linux (cgroups), которую сначала необходимо включить в операционной системе.

Контрольная группа cgroups – это группа процессов в Linux, для которой механизмами ядра наложена изоляция и установлены ограничения на некоторые вычислительные ресурсы (ЦП, сеть, память, дисковый ввод-вывод). Механизм позволяет образовывать иерархические группы процессов с заданными ресурсными свойствами и обеспечивает программное управление ими.

В заключение рассмотрим сходства и различия VMware Greenplum Command Center с Arenadata Command Center (ADCC) для Arenadata DB – MPP-СУБД от российского вендора, основанная на Greenplum. Как и центр управления Greenplum от VMware, ADCC предназначена для мониторинга состояния СУБД. Однако, в ADCC для хранения метрик используется отдельная база данных и нет привязки к кластеру при обработке метрик, благодаря чему можно наблюдать в одном веб-интерфейсе несколько кластеров Arenadata DB. Кроме того, ADCC поддерживает горизонтальное масштабирование сервера по обработке метрик.

Читайте в нашей новой статье про пакет с утилитами администрирования и технической поддержки Greenplum под названием gpsupport.

Освойте администрирование и эксплуатацию Greenplum с Arenadata DB для эффективного хранения и аналитики больших данных на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.

Источники

  1. https://docs.vmware.com/en/VMware-Greenplum-Command-Center/7.0/greenplum-command-center/topics-overview.html
  2. https://habr.com/ru/companies/arenadata/articles/564552/
Поиск по сайту