Техподдержка Greenplum с набором утилит пакета gpsupport

Как найти зависший процесс в базе данных Greenplum, создать резервную копию каталога, разделить лог-файл по тестам и проверить его на наличие повреждений. Знакомимся с набором утилит gpsupport.

6 инструментов утилиты gpsupport для техподдержки Greenplum

Как и любая крупная система Greenplum, помимо компонентов, обеспечивающих ее ключевые функции, также включает дополнительные инструменты, связанные с администрированием и обслуживанием этой СУБД. Большинство таких утилит для Greenplum пришли из PostgreSQL, на которой основана эта MPP-СУБД. Однако, это не относится к gpsupport – набору диагностических утилит для устранения неполадок и решения распространенных проблем с поддержкой, а также единый метод сбора информации, необходимой службе поддержки VMware. Найти подобный аналог для PostgreSQL мне не удалось. Всего в состав пакета gpsupport входит несколько утилит:

analyze_session для сбора информации из зависшего сеанса базы данных Greenplum для удаленного анализа, отслеживая активные процессы в сеансе базы данных и собирая диагностическую информацию, когда процесс запроса не отвечает или зависает. Выполнение команды создает архивный файл analysis_session_*.tgz, который содержит информацию о блокировках, статистику запросов и действий, а также другую полезную для дата-инженера информацию.
catalogbackup для создания резервной копии каталога. Сюда входит gp_log_collector – базовая утилита сбора журналов логов базы данных и утилита storage_rca_collector для сбора артефактов, связанных с хранилищем. Это полезно, когда нужно внести изменения в каталог, сперва сделав его резервную копию. Утилита storage_rca_collector собирает табличные данные, связанные с хранилищем, и генерирует выходной файл, который можно предоставить в службу поддержки клиентов VMware для диагностики ошибок, связанных с хранилищем, или системных сбоев. Утилита gp_log_collector используется для сбора журналов, генерируемых базой данных Greenplum: файлы журналов postgres, а также логи утилит управления. Это полезно, когда надо поделиться логами со службой поддержки для анализа и устранения неполадок. По умолчанию запуск gp_log_collector без опции собирает логи координатора и резервного сервера Greenplum за текущий день. Чтобы собрать журналы для сегментов с идентификатором контента 1 за текущий день, надо вызвать команду так:

$ gpsupport gp_log_collector -c 1

Greenplum для инженеров данных и аналитиков данных

Код курса

GPDE

Ближайшая дата курса

7 июля, 2025

Продолжительность

24 ак.часов

Стоимость обучения

72 000

gpcheckcat для анализа логов, включая разделение лог-файла на разные файлы для каждого теста, выполняемого утилитой gpcheckcat или создание SQL-запросов для устранения проблем каталога, связанных с такими таблицами, как pg_class и pg_dependent.
gpcheckup для проверки работоспособности всех хостов кластера базы данных Greenplum., включая сеть и настройки ядра. Сюда входит утилита gpstatscheck – утилита проверки недостающей статистики по объектам, используемым в SQL-запросе, и packcore, чтобы упаковать все файлы в один архив для удаленного анализа. Утилита gpstatscheck помогает идентифицировать все таблицы, участвующие в запросе, которые имеют устаревшую статистику. Если запрос выполняется медленнее, чем ожидалось, причиной замедления может быть устаревшая или неверная статистика в таблицах, участвующих в SQL-запросе. Это может произойти, если в таблицу были загружены новые данные, но анализ никогда не выполнялся, поэтому база данных использует неверную статистику при формировании плана запроса. Утилита gpstatscheck также генерирует выходной SQL-файл, который можно запустить, чтобы обновить таблицу последней статистикой, т.е. результатом выполнения оператора ANALYZE, о пользе которого мы писали здесь и здесь. Утилита packcore берет core-файл и извлекает имя двоичного файла, сгенерировавшего его, выполняет ldd (List Dynamic Dependities), чтобы получить необходимые общие библиотеки, и упаковывает все в один архив tarball.
primarymirror_lengths для проверки того, что основные и зеркальные файлы ссылок AO и AOCO-таблиц, о которых мы писали здесь, имеют корректную длину. Это позволяет обеспечить целостность и согласованность хранилища данных на базе Greenplum.
tablecollect для сбора данных и индексации файлов с целью поиска причин их повреждения.

Администрирование Greenplum / Arenadata DB

Код курса

GRAD

Ближайшая дата курса

7 июля, 2025

Продолжительность

32 ак.часов

Стоимость обучения

96 000

Узнайте больше про администрирование и эксплуатацию Greenplum для аналитики больших данных на специализированных курсах в нашем лицензированном учебном центре обучения и повышения квалификации для разработчиков, менеджеров, архитекторов, инженеров, администраторов, Data Scientist’ов и аналитиков Big Data в Москве:

Смотреть расписание

Записаться на курс

Я даю свое согласие на обработку персональных данных и соглашаюсь с политикой конфиденциальности.

Источники

6 инструментов утилиты gpsupport для техподдержки Greenplum

Публикации по теме