Мониторинг операционного статуса

Примечание!
Возможность аварийного восстановления доступна как экспериментальная функция в YMatrix версии 6.0.0.

В этом разделе описывается, как отслеживать операционный статус аварийного восстановления с помощью графического интерфейса (UI) или инструментов командной строки.

Инструменты командной строки

В следующем разделе приведено краткое руководство по проверке статуса функции аварийного восстановления с помощью SQL-запросов.

Основной кластер

  1. Системные каталоги

  2. Имя репликационного слота, используемого аварийным восстановлением: internal_disaster_recovery_rep_slot.

  3. Запрос информации о репликационном слоте, используемом аварийным восстановлением

    Примечание: Должен выполняться пользователем с соответствующими правами на основном кластере (например, mxadmin).

    SELECT *
    FROM pg_catalog.gp_replication_slots
    WHERE slot_name = 'internal_disaster_recovery_rep_slot'
    ORDER BY gp_segment_id
  4. Запрос статуса репликации для аварийного восстановления

    Примечание: Должен выполняться пользователем с соответствующими правами на основном кластере (например, mxadmin).

    SELECT *
    FROM
        pg_catalog.gp_replication_slots s
    LEFT JOIN
        pg_catalog.gp_stat_replication r
    ON
        s.gp_segment_id = r.gp_segment_id AND s.active_pid = r.pid
    WHERE s.slot_name = 'internal_disaster_recovery_rep_slot'
    ORDER BY s.gp_segment_id

Резервный кластер

  1. Системный каталог

  2. Имя репликационного слота, используемого аварийным восстановлением: internal_disaster_recovery_rep_slot.

  3. Запрос статуса WAL-приемника для аварийного восстановления

    Примечание: Должен выполняться пользователем с соответствующими правами на резервном кластере (например, mxadmin).

    SELECT *
    FROM pg_catalog.gp_stat_wal_receiver
    WHERE slot_name = 'internal_disaster_recovery_rep_slot'
    ORDER BY gp_segment_id

Графический интерфейс

  1. Войдите в UI и перейдите на страницу Кластер. Если для текущего кластера не настроен резервный кластер, страница отображает следующее:

    dr_monitor_1

  2. Если резервный кластер настроен, в архитектуре аварийного восстановления существуют две роли: Primary cluster и Backup cluster.

    a. Основной кластер
    На странице основного кластера система отображает три ключевых параметра: роль кластера, режим синхронизации и статус синхронизации.

    • Режим синхронизации

      • Поддерживаются три режима: Synchronisation, Asynchronous и Unidentified.
      • Режим определяется параметром synchronous_standby_names в конфигурации базы данных:
        • * означает режим Synchronisation.
        • Пустая строка означает режим Asynchronous.
        • Любое другое значение рассматривается как режим Unidentified.
    • Статус синхронизации

      • Возможны три состояния: Synchronised, Synchronising и malfunction.
      • Этот статус выводится из состояния потоков синхронной репликации на основном кластере:
        • Synchronised: Все потоки синхронной репликации завершили синхронизацию.
        • Synchronising: По крайней мере один активный поток репликации не синхронизирован полностью.
        • malfunction: По крайней мере один поток репликации неактивен.

    b. Резервный кластер

Основной кластер

  1. Наведите указатель мыши на панель информации об аварийном восстановлении, чтобы отобразить кнопку View details.

  2. Щелкните кнопку View details, чтобы перейти на страницу списка потоков синхронной репликации.

    • Каждая строка представляет один поток синхронной репликации.
      • Статус: Текущий статус потока, включая Disconnected, Synchronising и Synchronised.
      • contentid: Соответствует shard ID потока репликации.
      • sync_error: Отображает сообщения об ошибках, связанные с потоком репликации.
      • Время обновления: Метка времени последнего обновления потока.
      • Действия: Содержит опцию «Подробности».
    • Используйте поле поиска для выполнения нечеткого поиска по contentid и sync_error.
  3. Щелкните кнопку Detail в любой строке, чтобы просмотреть подробную информацию о данном потоке репликации, включая базовую информацию, информацию о слоте и информацию о репликации.

    • Базовая информация: Основные сведения о segment, связанном с потоком репликации.
    • Информация о слоте: Поля из таблицы pg_catalog.gp_replication_slots, отображающие данные, связанные с физическими репликационными слотами.
    • Информация о репликации: Данные полей из таблицы pg_catalog.gp_stat_replication.

Резервный кластер

  1. Наведите указатель мыши на панель информации об аварийном восстановлении, чтобы отобразить кнопку View details.

  2. Щелкните View details, чтобы перейти на страницу списка потоков WAL-приемника на резервном кластере.

    • Каждая строка представляет один поток WAL-приемника.
      • Статус: Состояние процесса WAL-приемника.
      • contentid: Идентифицирует соответствующий shard ID для этого WAL-приемника.
      • received_lsn: Прогресс полученного потока WAL-логов; указывает последнюю полученную позицию лога.
      • received_tli: Идентификатор временной шкалы последнего полученного WAL-лога.
      • last_msg_receipt_time: Время получения WAL-данных.
      • Действия: Содержит опцию «Подробности».
    • Используйте поле поиска для выполнения нечеткого поиска по contentid, received_lsn, received_tli и last_msg_receipt_time.
  3. Щелкните кнопку действия details, чтобы просмотреть подробную информацию о конкретном потоке WAL-приемника.

    • Базовая информация: Основные сведения о сегменте, связанном с WAL-приемником.
    • gp_stat_wal_receiver Информация: Данные полей из таблицы pg_catalog.gp_stat_wal_receiver.