Мониторинг состояния MatrixUI

Этот документ описывает функцию графического интерфейса для мониторинга состояния кластера.

Во время повседневной эксплуатации базы данных YMatrix выполняет большое количество SQL-запросов. Возможны проблемы, такие как сбои оборудования (например, отказ сети) или конфликты блокировок из-за конкурентности транзакций. Если эти проблемы не устраняются своевременно, они могут замедлить ответы клиентов или вызвать прямые ошибки, снижая эффективность бизнеса. Для более эффективного решения таких проблем функция графического мониторинга состояния помогает быстро выявлять аномальное поведение в кластере базы данных.

Мониторинг состояния периодически проверяет соответствующие системные каталоги в зависимости от различных параметров проверки. Он оценивает, соответствуют ли состояния выполнения запросов ожидаемым бизнес-условиям. При обнаружении неожиданного состояния немедленно отправляется уведомление. Уведомления можно просмотреть в графическом интерфейсе. Для более своевременных оповещений вы также можете настроить уведомления по электронной почте, если проверка веб-страницы затруднительна.

1 Предварительные требования

Введите IP-адрес (по умолчанию — IP-адрес хоста Master) и номер порта машины, на которой запущен MatrixGate, в браузер для входа в графический интерфейс.

http://<IP>:8240

2 Базовая настройка

После успешного входа перейдите на страницу Мониторинг состояния.

2.1 Настройка электронной почты

Вы можете выбрать, настраивать ли параметры электронной почты в зависимости от ваших потребностей. После настройки вы будете получать уведомления об оповещениях по электронной почте.

  1. Доменное имя графического интерфейса
    Для удобства быстрого доступа к детальной информации об оповещениях в письме включена ссылка, перенаправляющая на графический интерфейс. Если получатели не могут получить доступ к домену по умолчанию, измените это поле соответственно.

  2. Адрес SMTP-сервера
    Адрес SMTP-сервера состоит из IP-адреса и номера порта. Пример: smtp.example.com:465.

Часто используемые адреса сторонних сервисов электронной почты:

Примечание!
Если служба электронной почты развернута самостоятельно, обратитесь к вашему администратору электронной почты или поставщику услуг.

  1. Имя пользователя
    Учетная запись, используемая для аутентификации на SMTP-сервере. Это поле необязательно и требуется только в случае, если SMTP-сервер требует аутентификации по имени пользователя. Пример: [email protected].

  2. Пароль
    Пароль для пользователя SMTP. Это поле необязательно и требуется только в случае, если SMTP-сервер требует как имя пользователя, так и пароль для аутентификации.

  • Распространенные сторонние сервисы электронной почты:
    • Alibaba Cloud Mail: Используйте пароль для входа в почтовый ящик.
    • Google Mail: Используйте пароль для входа в почтовый ящик.
    • NetEase Mail:
      • Личная версия: Используйте авторизационный код вместо пароля для входа; см. документацию.
      • Корпоративная версия: По умолчанию используется пароль для входа. Если администратор включил авторизационные коды клиентов, обратитесь к нему за подробностями.
    • QQ Mail:
      • Личная версия: Используйте авторизационный код; см. документацию.
      • Корпоративная версия: По умолчанию используется пароль для входа. Если включена безопасная авторизация, используйте авторизационный код; см. документацию.

Примечание!
Для самостоятельно развернутых сервисов электронной почты обратитесь к вашему администратору электронной почты или поставщику услуг.

  1. Отправитель
    Для сторонних сервисов электронной почты это поле должно совпадать с «Именем пользователя».
    Для самостоятельно развернутых сервисов введите адрес электронной почты отправителя.

  2. Получатели
    Введите один или несколько адресов электронной почты получателей.

2.2 Уведомления по электронной почте

Если вы настроили параметры электронной почты, вы будете получать письмо с оповещением всякий раз, когда событие соответствует условию сбоя любого параметра проверки.

2.3 История событий

Независимо от того, настроены ли уведомления по электронной почте, вы можете просматривать исторические записи событий, соответствующих условиям сбоя проверки, в разделе История событий.

3 Параметры мониторинга

Ниже приведен список параметров мониторинга, предоставляемых YMatrix:

Пункт Параметр мониторинга Описание
1 Кластер недоступен Периодически выполняет запрос `SELECT * FROM gp_dist_random('gp_id');` для проверки доступности кластера. Если этот запрос неудачно завершается три раза подряд, кластер, вероятно, отключен — возможные причины включают одновременный сбой основного Segment и его зеркального Segment, сбой сети, отключение питания или сбой оборудования.
2 Сбой Segment Сбой основного Segment вызывает дисбаланс ресурсов на хосте соответствующего зеркального Segment. Хост зеркального Segment испытывает повышенную нагрузку, что замедляет выполнение запросов. В тяжелых случаях истощение памяти на перегруженном узле может сделать кластер недоступным.
Сбой зеркального Segment снижает доступность. Если затем выйдет из строя соответствующий основной Segment, кластер станет недоступным.
3 Запрос/Транзакция выполняется более 12 часов Долгие запросы или транзакции потребляют избыточные ресурсы памяти и ЦП, снижая производительность ответа базы данных и потенциально вызывая OOM (истощение памяти). Они также могут задерживать процессы VACUUM.
4 Транзакция в состоянии «ожидание в транзакции» более 1 часа Транзакция, остающаяся в состоянии «ожидание в транзакции» длительное время, блокирует большинство запросов, затрагивающих ее таблицы, и препятствует VACUUM в освобождении мертвых строк, что приводит к раздуванию таблиц.
5 Один запрос/транзакция блокирует более 5 других более 15 минут Если запрос или транзакция длительное время блокируют множество других, они могут вызвать каскадные блокировки других операций, снижая отзывчивость сервиса.
6 Запрос, запрашивающий эксклюзивную или AccessExclusive блокировку, заблокирован более 15 минут Запрос, запрашивающий эксклюзивную или AccessExclusive блокировку на уровне таблицы, если заблокирован длительное время, может вызвать накопление заблокированных запросов, влияя на эффективность ответа.
7 Запрос/Транзакция удерживает эксклюзивную или AccessExclusive блокировку более 2 часов Запрос или транзакция, удерживающие эксклюзивную или AccessExclusive блокировку на уровне таблицы в течение длительного времени, блокируют все запросы, обращающиеся к заблокированной таблице, что влияет на отзывчивость сервиса.
8 Транзакция, удерживающая эксклюзивную или AccessExclusive блокировку в состоянии «ожидание в транзакции» более 15 минут Транзакция, удерживающая эксклюзивную или AccessExclusive блокировку в состоянии «ожидание в транзакции» в течение 15 минут, блокирует большинство запросов на связанных таблицах, влияя на отзывчивость сервиса.
9 Диск Вы можете быстро включить или отключить параметры мониторинга диска: «Диск заполнен», «Свободное место на диске ниже 20%», «Диск будет исчерпан в течение 7 дней» и «Аномальный рост диска за последние 24 часа». Нажмите кнопку «Редактировать», чтобы настроить пороги в соответствии с потребностями бизнеса.

Все параметры включены по умолчанию, но могут быть включены/отключены по необходимости.

Если параметры по умолчанию не соответствуют вашему сценарию использования, вы можете их отредактировать.

Дополнительно
Для настройки оповещений Grafana см. Оповещения кластера Grafana.