Администрирование Greenplum с помощью утилиты gpsupport

Greenplum администрирование примеры курсы обучение, администратор Greenplum, системные утилиты техподдержка Greenplum, Школа Больших Данных Учебный Центр Коммерсант

Как найти зависший процесс в базе данных Greenplum, создать резервную копию каталога, разделить лог-файл по тестам и проверить его на наличие повреждений. Знакомимся с набором утилит gpsupport.

6 инструментов утилиты gpsupport для техподдержки Greenplum

Как и любая крупная система Greenplum, помимо компонентов, обеспечивающих ее ключевые функции, также включает дополнительные инструменты, связанные с администрированием и обслуживанием этой СУБД. Большинство таких утилит для Greenplum пришли из PostgreSQL, на которой основана эта MPP-СУБД. Однако, это не относится к gpsupport — набору диагностических утилит для устранения неполадок и решения распространенных проблем с поддержкой, а также единый метод сбора информации, необходимой службе поддержки VMware. Найти подобный аналог для PostgreSQL мне не удалось. Всего в состав пакета gpsupport входит несколько утилит:

  • analyze_session для сбора информации из зависшего сеанса базы данных Greenplum для удаленного анализа, отслеживая активные процессы в сеансе базы данных и собирая диагностическую информацию, когда процесс запроса не отвечает или зависает. Выполнение команды создает архивный файл analysis_session_*.tgz, который содержит информацию о блокировках, статистику запросов и действий, а также другую полезную для дата-инженера информацию.
  • catalogbackup для создания резервной копии каталога. Сюда входит gp_log_collector — базовая утилита сбора журналов логов базы данных и утилита storage_rca_collector для сбора артефактов, связанных с хранилищем. Это полезно, когда нужно внести изменения в каталог, сперва сделав его резервную копию. Утилита storage_rca_collector собирает табличные данные, связанные с хранилищем, и генерирует выходной файл, который можно предоставить в службу поддержки клиентов VMware для диагностики ошибок, связанных с хранилищем, или системных сбоев. Утилита gp_log_collector используется для сбора журналов, генерируемых базой данных Greenplum: файлы журналов postgres, а также логи утилит управления. Это полезно, когда надо поделиться логами со службой поддержки для анализа и устранения неполадок. По умолчанию запуск gp_log_collector без опции собирает логи координатора и резервного сервера Greenplum за текущий день. Чтобы собрать журналы для сегментов с идентификатором контента 1 за текущий день, надо вызвать команду так:
$ gpsupport gp_log_collector -c 1

  • gpcheckcat для анализа логов, включая разделение лог-файла на разные файлы для каждого теста, выполняемого утилитой gpcheckcat или создание SQL-запросов для устранения проблем каталога, связанных с такими таблицами, как pg_class и pg_dependent.
  • gpcheckup для проверки работоспособности всех хостов кластера базы данных Greenplum., включая сеть и настройки ядра. Сюда входит утилита gpstatscheck – утилита проверки недостающей статистики по объектам, используемым в SQL-запросе, и packcore, чтобы упаковать все файлы в один архив для удаленного анализа. Утилита gpstatscheck помогает идентифицировать все таблицы, участвующие в запросе, которые имеют устаревшую статистику. Если запрос выполняется медленнее, чем ожидалось, причиной замедления может быть устаревшая или неверная статистика в таблицах, участвующих в SQL-запросе. Это может произойти, если в таблицу были загружены новые данные, но анализ никогда не выполнялся, поэтому база данных использует неверную статистику при формировании плана запроса. Утилита gpstatscheck также генерирует выходной SQL-файл, который можно запустить, чтобы обновить таблицу последней статистикой, т.е. результатом выполнения оператора ANALYZE, о пользе которого мы писали здесь и здесь. Утилита packcore берет core-файл и извлекает имя двоичного файла, сгенерировавшего его, выполняет ldd (List Dynamic Dependities), чтобы получить необходимые общие библиотеки, и упаковывает все в один архив tarball.
  • primarymirror_lengths для проверки того, что основные и зеркальные файлы ссылок AO и AOCO-таблиц, о которых мы писали здесь, имеют корректную длину. Это позволяет обеспечить целостность и согласованность хранилища данных на базе Greenplum.
  • tablecollect для сбора данных и индексации файлов с целью поиска причин их повреждения.

Узнайте больше про администрирование и эксплуатацию Greenplum для аналитики больших данных на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.

Источники

  1. https://greenplum.org/gpsupport-support-utility-for-vmware-greenplum/
  2. https://docs.vmware.com/en/VMware-Greenplum/7/greenplum-database/utility_guide-ref-gpsupport.html
Поиск по сайту