Интерпретация метрик Prometheus-мониторинга

Документ описывает метрики и рекомендуемые пороги оповещений для мониторинга YMatrix, MatrixGate и узлов хоста в дашборде Prometheus.

Описание уровней оповещений

  • p0: Требует немедленных действий; кластер недоступен.
  • p1: Требует оперативных действий; функциональность кластера может быть нарушена при отсутствии своевременного устранения.
  • p2: Требует внимания; длительное игнорирование может повлиять на работу кластера.
  • p3: Не влияет на работу кластера; настройка оповещений по необходимости.

Примечание!
Метрики без указанных порогов оповещений следует оценивать и настраивать исходя из реальных условий.

1 Метрики мониторинга YMatrix

1.1 Обзор

Этот раздел отображает общий статус кластера, включая:

Метрика Описание Единица Уровень Рекомендуемый порог оповещения
Статус кластера Статус узлов кластера:
0: Нормальный
1: Нет резервного узла
2: Нет зеркала
10: Неравномерное распределение (после восстановления узла роли первичного и зеркального не перебалансированы)
11: Асинхронные узлы (некоторые зеркальные узлы не синхронизированы с первичными)
12: Только мастер (работает только мастер-узел, обычно для диагностики)
20: Сегмент недоступен (недоступные сегменты, кластер неработоспособен)
short p0 20: Сегмент недоступен — критично, требует оповещения
Время работы Время работы YMatrix и время работы ОС на хосте мастера секунды (с)
Версия Версия YMatrix
Статус подключений Статистика подключений к базе данных: общее количество подключений, заблокированные запросы, неактивные подключения, неактивные в транзакции short
Медленные запросы Количество запросов, выполняющихся дольше 1 дня short Оповещать, если больше 0
Транзакции Статистика фиксации и отката транзакций short
Используемое дисковое пространство Использование диска экземплярами мастера или сегмента 0-1
Статус узла Статус каждого узла:
0: В работе (нормальный)
10: Переключение (произошло переключение ролей; требуется перебалансировка)
11: Синхронизация (в процессе синхронизации)
20: Не в работе (выключен)
short p2/p1 Оповещать на уровне p2, если значение не нулевое более 5 минут
Оповещать на уровне p1 при значении 20

1.2 Производительность базы данных

Этот раздел отображает метрики производительности базы данных:

Метрика Описание Единица Уровень Рекомендуемый порог оповещения
Коэффициент попаданий в кэш страниц Доля операций чтения таблиц HEAP, попадающих в кэш блоков, относительно общего числа чтений. (Кэш включает только собственный кэш таблиц HEAP, а не кэш ОС.)
Отображаемое значение — текущее; кривая показывает исторические данные.
Обычно должно превышать 90%
0-1
Размер временных файлов Общий объем данных, записанных во временные файлы запросами. Все временные файлы учитываются независимо от настройки log_temp_files байты
Сессии на базу данных Количество сессий на каждую базу данных short
Активности Количество сессий в различных состояниях short
Взаимные блокировки Количество взаимных блокировок short p3 YMatrix автоматически разрешает взаимные блокировки; неудачные запросы можно повторить. Оповещение можно настроить по необходимости.
Ошибки контрольных сумм Количество сбоев контрольных сумм страниц данных. NULL, если не включено short p3
Прочитанные строки Количество прочитанных строк short
Контрольные точки Статистика контрольных точек.Оранжевый — контрольные точки, инициированные вручную.Зеленый — контрольные точки, инициированные по таймауту short
Попадания в кэш страниц blks_hit: количество попаданий в кэш при чтении страниц данных
blks_read: количество чтений с диска из-за промахов кэша
Задержка репликации write_lag — Время между локальной фиксацией WAL и подтверждением получения Standby/Mirror (еще не зафиксировано и не применено). Измеряет задержку фиксации при synchronous_commit, установленном в remote_write
flush_lag — Время между локальной фиксацией WAL и подтверждением flush Standby/Mirror (еще не применено). Измеряет задержку фиксации при synchronous_commit, установленном в on
replay_lag — Время между локальной фиксацией WAL и подтверждением применения Standby/Mirror. Измеряет задержку фиксации при synchronous_commit, установленном в remote_apply
миллисекунды (мс) p3 При стандартной синхронной репликации между Primary и Mirror значения >1с замедляют транзакции. Для асинхронной репликации порог следует увеличить соответственно.
Вставленные/Обновленные/Удаленные строки Количество операций INSERT, UPDATE или DELETE short
Буферы контрольной точки buffers_checkpoint: буферы, записанные во время контрольной точки
buffers_clean: буферы, записанные фоновым писателем
buffers_backend: буферы, записанные напрямую процессами бэкенда
short
Топ-10 размеров задержки репликации Топ-10 размеров WAL для задержки репликации байты p3 При стандартной синхронной репликации >1 ГБ вызывает замедление фиксаций. Для асинхронной репликации порог следует увеличить соответственно.

1.3 Хранилище

Этот раздел отображает статистику, связанную с хранилищем:

Метрика Описание Единица Уровень Рекомендуемый порог оповещения
Топ-10 баз данных Топ-10 самых больших баз данных байты
Топ-10 пользователей Топ-10 пользователей по объему данных байты
Топ-10 старых баз данных Топ-10 баз данных по возрасту short p2 Максимальный возраст базы данных — 21 Э. Экземпляр останавливается, когда остается только 1 Э. В логах предупреждение при 5 Э. Рекомендуется оповещать при 6 Э и 2 Э.
Топ-10 больших таблиц Топ-10 самых больших таблиц байты
Топ-10 больших партиций Топ-10 самых больших партиционированных таблиц байты
Топ-10 роста сегодня Топ-10 таблиц с наибольшим ростом данных сегодня байты
Топ-10 роста за последние 7 дней Топ-10 таблиц с наибольшим ростом данных за последние 7 дней байты

2 Метрики мониторинга MatrixGate

2.1 Основная информация

Метрика Описание Единица Уровень Рекомендуемый порог оповещения
Версия Версия mxgate
Время работы Время работы mxgate секунды (с)
PID процесса PID фонового процесса mxgate short p2 Отсутствие PID может указывать на остановку mxgate

2.2 Информация о задачах

Метрика Описание Единица Уровень Рекомендуемый порог оповещения
Целевая таблица Целевая таблица для вставки данных
Общее количество вставленных строк Общее количество успешно вставленных строк с момента запуска mxgate short
Общее количество неудачных вставок Общее количество неудачных вставок с момента запуска mxgate short p3 Установить порог в зависимости от требований
Общий объем вставленных данных Общий объем данных, успешно вставленных с момента запуска mxgate short
Конкурентность Общая конкурентность: настроена как stream - prepared + 1 (максимальная конкурентность)
Активное количество: фактическая конкурентность (некоторые потоки могут спать, поэтому фактическая конкурентность может быть ниже)
short
Гранулярность времени транзакции Интервал времени фиксации транзакций данных short
Заблокированные целевые таблицы Количество заблокированных целевых таблиц short

2.3 Статистика нагрузки

Метрика Описание Единица Уровень Рекомендуемый порог оповещения
Зафиксированные строки Количество строк, зафиксированных для этой задачи short
Вставленные строки Количество строк, вставленных для этой задачи short
Заблокированные строки Количество заблокированных строк для этой задачи short p3 Установить порог в зависимости от требований
Неудачные вставки Количество ошибок записи для этой задачи short p3 Установить порог в зависимости от требований
Объем записанных данных Общий объем байтов, записанных этой задачей байты

2.4 Статистика задержек

Задержки на этапах ввода данных, представленные как статистические значения во времени:

  • max: максимальное
  • min: минимальное
  • 95%: среднее значение 95% данных
Метрика Описание Единица Уровень Рекомендуемый порог оповещения
Общая задержка Сумма следующих задержек наносекунды (нс) p3 30 с
Задержка insertStart Время от выполнения INSERT до отправки первых данных на сегмент наносекунды (нс)
Задержка write Время, затраченное mxgate на отправку этой партии на сегмент наносекунды (нс)
Задержка insertDone Время от отправки последних данных на сегмент до завершения INSERT (перераспределение данных и сохранение на диске по сегментам) наносекунды (нс)
Задержка commit Время выполнения команды COMMIT наносекунды (нс)

2.5 События базы данных

Метрика Описание Единица Уровень Рекомендуемый порог оповещения
Количество CHECKPOINT Количество выполнений CHECKPOINT в минуту short
Задержка записи CHECKPOINT Общее время, затраченное на запись файлов на диск во время контрольной точки, в миллисекундах миллисекунды (мс)
Задержка синхронизации CHECKPOINT Общее время, затраченное на синхронизацию файлов на диск во время контрольной точки, в миллисекундах миллисекунды (мс)
Количество выделенных буферов Количество выделенных буферов short
Количество записанных буферов на диск Три категории:
1. Буферы, записанные во время контрольной точки
2. Буферы, записанные фоновым писателем
3. Буферы, записанные напрямую процессом бэкенда
short
Достигнут лимит сброса грязных страниц Количество раз, когда фоновый писатель остановился из-за превышения лимита записи буферов short
Задержка WAL между Primary и Standby Задержка WAL между мастером и резервным узлом или между Primary и Mirror байты
Задержка между Primary и Standby Задержка времени между мастером и резервным узлом или между Primary и Mirror миллисекунды (мс)
Тренд блокировки целевой таблицы Четыре категории:
1. Связанные с блокировками
2. Связанные с репликацией
3. Связанные с группами ресурсов
4. Связанные с очередями ресурсов
short

3 Мониторинг узлов хоста

3.1 Быстрый обзор CPU / Память / Диск

Метрика Описание Единица Уровень Рекомендуемый порог оповещения
Загрузка CPU Процент времени, в течение которого все ядра CPU заняты 0-1
Средняя нагрузка системы (5 мин) Средняя нагрузка на все ядра за 5 минут 0-1 p3/p2 CPU cores 3 / CPU cores 5
Средняя нагрузка системы (15 мин) Средняя нагрузка на все ядра за 15 минут 0-1 p3/p2 CPU cores 3 / CPU cores 5
Используемая RAM Используемая память (общая — свободная — буфер/кэш) 0-1
Используемый SWAP Используемая своп-память 0-1 p3 80%
Использование корневой ФС Использование корневой файловой системы 0-1 p3/p2 60%/80%
Количество ядер CPU Количество физических ядер CPU short
Общий объем корневой ФС Общий объем корневой файловой системы байты p3/p2 60%/80%
Время работы системы Время работы системы секунды (с)
Общий объем RAM Общий объем памяти байты
Общий объем SWAP Размер своп-раздела байты

3.2 Базовая информация о CPU / Память / Диск

Метрика Описание Единица Уровень Рекомендуемый порог оповещения
CPU базовый Базовая информация о CPU из /proc/stat 0-1
Память базовая Базовая информация о памяти байты
Трафик сети базовый Базовая информация о сети по интерфейсам бит p3/p2 60% / 80% от максимальной пропускной способности сетевой карты
Использование дискового пространства базовое Процент использования дискового пространства всех смонтированных файловых систем 0-1 p3 60% / 80% использования диска

3.3 CPU / Память / Сеть / Диск

Метрика Описание Единица Уровень Рекомендуемый порог оповещения
CPU Время CPU, затраченное в режиме ядра short
Стек памяти Стек памяти из /proc/meminfo байты
Трафик сети Скорость передачи по каждому сетевому интерфейсу байты/сек
Используемое дисковое пространство Используемое дисковое пространство на всех смонтированных файловых системах байты
Операции ввода-вывода диска Операции чтения/записи диска I/O операций/сек (iops)
Пропускная способность чтения/записи Пропускная способность чтения/записи диска байты
Использование I/O Использование I/O 0-1 p3/p2 60% / 80%
Время CPU, затраченное на гостевые системы (ВМ) Время, затраченное на выполнение гостевой системы с nice-значением миллисекунды (мс)

3.4 Память Meminfo

Метрика Описание Единица Уровень Рекомендуемый порог оповещения
Активная / Неактивная память Часто/недавно используемая память против редко используемой
Детализация активной / неактивной памяти Inactive_file — страницы, основанные на файлах, не доступные недавно (LRU_INACTIVE_FILE)
Inactive_anon — анонимные страницы, не доступные недавно (LRU_INACTIVE_ANON)
Active_file — недавно доступные страницы, основанные на файлах (LRU_ACTIVE_FILE)
Active_anon — недавно доступные анонимные страницы (LRU_ACTIVE_ANON)
байты
Разделяемая и сопоставленная память Mapped — память, используемая сопоставленными страницами кэша (Mapped)
Shmem — разделяемая память (Shmem)
байты
Vmalloc VmallocChunk — наибольший непрерывный блок vmalloc памяти
VmallocTotal — общий объем доступной vmalloc памяти
VmallocUsed — общий объем используемой vmalloc памяти
байты
Анонимная память Active_anon — недавно используемые анонимные виртуальные страницы памяти (nr_active_anon)
Active_file — недавно используемые виртуальные страницы памяти, основанные на файлах (nr_active_file)
байты
Счетчик HugePages HugePages_Free — количество свободных HugePages
HugePages_Rsvd — зарезервированные HugePages (запрошены, но еще не выделены)
HugePages_Surp — избыточные HugePages сверх настроенного количества резидентных
байты
DirectMap DirectMap1G — память, сопоставленная страницами 1 ГБ
DirectMap2M — память, сопоставленная страницами 2 МБ
DirectMap4K — память, сопоставленная страницами 4 КБ
байты
NFS NFS Unstable — страницы, отправленные на сервер NFS, но еще не записанные на диск байты
Committed Текущая выделенная память (включая выделенную, но неиспользуемую)
Общий объем доступной для выделения памяти
байты p3/p2 60% / 80%
Writeback и Dirty Writeback — страницы, активно записываемые на диск
WritebackTmp — память, используемая FUSE для временных буферов записи
Dirty — данные, ожидающие записи на диск
байты
Slab Reclaimable — восстанавливаемая slab-память (nr_slab_reclaimable)
Unreclaimable — невосстанавливаемая slab-память (nr_slab_unreclaimable)
байты
Bounce Bounce — память, используемая bounce-буферами байты
Ядро / CPU KernelStack — размер стека ядра (резидентный, невосстанавливаемый)
PerCPU — память, выделенная на каждый CPU для загрузки модулей
байты
Размер HugePages HugePages — общее количество HugePages
Hugepagesize — размер одной HugePage
байты
Unevictable MLocked Unevictable — невыгружаемая память
MLocked — память, заблокированная mlock()
байты

3.5 Память Vmstat

Метрика Описание Единица Уровень Рекомендуемый порог оповещения
Страницы памяти ввода/вывода Pagesin — скорость чтения данных с диска в физическую память (среднее за 5 минут)
Pagesout — скорость записи данных из физической памяти на диск (среднее за 5 минут)
short
Ошибки страниц памяти Pgfault — среднее количество мелких и крупных ошибок страниц (среднее за 5 минут)
Pgmajfault — среднее количество крупных ошибок страниц
Pgminfault — среднее количество мелких ошибок страниц
short
Страницы подкачки ввода/вывода Pswpin — скорость подкачки данных с диска в память (среднее за 5 минут)
Pswpout — скорость выгрузки данных из памяти на диск (среднее за 5 минут)
short
OOM Killer Количество вызовов OOM Killer short p3 Оповещать при любом изменении

3.6 Синхронизация времени системы

Метрика Описание Единица Уровень Рекомендуемый порог оповещения
Смещение синхронизации времени Оценочная ошибка (секунды)
Смещение времени между локальной системой и эталонными часами
Максимальная ошибка (секунды)
short
Статус синхронизации времени Синхронизированы ли часы с надежным сервером
Оценочная ошибка (секунды)
short
Корректировка PLL времени Корректировка времени с помощью фазовой автоподстройки частоты short
Разное время Секунды между тактами часов
Смещение TAI (международное атомное время)
short

3.7 Процессы системы

Метрика Описание Единица Уровень Рекомендуемый порог оповещения
Статус процессов Processes blocked — количество текущих заблокированных задач (procs_blocked)
Processes in runnable state — количество задач в очереди выполнения (procs_running)
short p3 blocked: 10
Создание процессов Количество создаваемых процессов в секунду short
Количество и лимит PID Текущее количество запущенных процессов
Максимальный лимит процессов на хосте
short p3/p2 15000 / 20000
Память процессов Виртуальная память, используемая процессами
Максимально доступная виртуальная память для процессов
bytes
Статистика планирования процессов: выполнение / ожидание Время запуска процесса
Время ожидания CPU
ms
Количество и лимит потоков Общее количество потоков
Максимальный лимит потоков на хосте
short

3.8 Разное системы

Метрика Описание Единица Уровень Рекомендуемый порог оповещения
Переключения контекста / прерывания Context switches — среднее количество переключений контекста CPU (среднее за 5 минут)
Interrupts — среднее общее количество обработанных прерываний (среднее за 5 минут)
short
Детализация прерываний Список мягких прерываний и их среднее количество (среднее за 5 минут) short
Энтропия Доступная энтропия для генерации случайных чисел short
Дескрипторы файлов Максимальное количество открытых дескрипторов файлов
Текущее количество открытых дескрипторов файлов
short
Временные кванты, запланированные каждым CPU Кванты времени, запланированные для каждого CPU short
Время CPU в пользовательском и системном контекстах Время CPU, затраченное в пользовательском и системном контекстах short

3.9 Разное оборудования

Метрика Описание Единица Уровень Рекомендуемый порог оповещения
Мониторинг температуры оборудования Мониторинг температуры оборудования Celsius (℃)
Питание Статус питания short
Устройство охлаждения Статус устройства охлаждения short

3.10 Systemd

Метрика Описание Единица Уровень Рекомендуемый порог оповещения
Systemd сокеты Общее количество принятых соединений на сокетах short
Состояние юнитов Systemd inactive — неактивные юниты Systemd
failed — неудачные юниты Systemd
deactivating — деактивируемые юниты
active — активные юниты
activating — активируемые юниты
short

3.11 Хранилище: Диск

Имя метрики Описание Единица Уровень серьезности Рекомендуемый порог оповещения
Завершенные операции ввода-вывода диска Количество завершенных операций чтения в секунду на каждом разделе диска
Количество завершенных операций записи в секунду на каждом разделе диска
I/O ops/sec (iops)
Среднее время ожидания диска Среднее время ожидания операций чтения на каждом диске
Среднее время ожидания операций записи на каждом диске
Milliseconds (ms) p3 1s
Объединенные операции чтения/записи Количество объединенных операций чтения в секунду на каждом разделе диска
Количество объединенных операций записи в секунду на каждом разделе диска
I/O ops/sec (iops)
Мгновенный размер очереди Мгновенный размер очереди; количество ожидающих запросов на момент выборки. Увеличивается при постановке запросов в request_queue, уменьшается по завершению запросов short
Данные чтения/записи диска Количество байт, считываемых в секунду с каждого раздела диска
Количество байт, записываемых в секунду на каждый раздел диска
bytes/sec
Средний размер очереди Средняя длина очереди запросов, отправленных устройству short
Время, затраченное на операции ввода-вывода Процент времени, в течение которого запросы ввода-вывода отправлялись устройству (использование пропускной способности устройства). Для устройств, обрабатывающих запросы последовательно, значение, приближающееся к 100%, указывает на перегрузку. Для параллельных устройств, таких как RAID-массивы и современные SSD, это значение не обязательно отражает пределы производительности. 0-1
Завершенные/объединенные операции освобождения диска Завершенные операции освобождения диска (IOPS)
Объединенные операции освобождения диска (IOPS)
I/O ops/sec (iops)

3.12 Хранилище: Файловая система

Имя метрики Описание Единица Уровень серьезности Рекомендуемый порог оповещения
Доступное место файловой системы Доступное пространство на смонтированных файловых системах
Свободное пространство на смонтированных файловых системах
Используемое пространство на смонтированных файловых системах
bytes p3/p2 60%/80%
Дескрипторы файлов Максимальное количество открытых дескрипторов файлов — максимальное число открытых дескрипторов
Открытые дескрипторы файлов — количество текущих открытых дескрипторов
short
Файловая система в режиме только для чтения / ошибка Файловые системы, смонтированные в режиме только для чтения
Количество ошибок устройства — количество ошибок устройства
short p3
Свободные узлы файлов Свободные узлы файлов: количество оставшихся инодов на смонтированных файловых системах short p3 60%
Размер узлов файлов Общее количество узлов файлов: общее число инодов на смонтированных файловых системах short

3.13 Сетевой трафик

Имя метрики Описание Единица Уровень серьезности Рекомендуемый порог оповещения
Сетевой трафик по пакетам Receive — общее количество полученных пакетов в секунду на всех интерфейсах
Transmit — общее количество переданных пакетов в секунду на всех интерфейсах
packets/sec
Потерянные пакеты сети Receive drop — общее количество отброшенных полученных пакетов в секунду на каждом интерфейсе
Transmit drop — общее количество отброшенных переданных пакетов в секунду на каждом интерфейсе
packets/sec p3 100
Мультикаст-трафик сети Receive multicast — количество мультикаст-пакетов, полученных в секунду на каждом интерфейсе packets/sec
Фреймы сети Receive frame — количество фреймов, полученных в секунду на каждом интерфейсе packets/sec
Коллизии сети Transmit colls — количество коллизий, обнаруженных на каждом интерфейсе short
ARP-записи ARP entries — количество записей в ARP-таблице на каждом интерфейсе short
Скорость Speed — максимальная пропускная способность сетевого интерфейса bytes
Пакеты softnet Processed — количество пакетов, обработанных на каждом CPU
Dropped — количество пакетов, отброшенных на каждом CPU
Статус работы сети Physical link state — физическое состояние подключения каждого сетевого интерфейса short
Ошибки сетевого трафика Receive errors — общее количество ошибочных пакетов, полученных в секунду на каждом интерфейсе
Transmit errors — общее количество ошибочных пакетов, переданных в секунду на каждом интерфейсе
packets/sec p3 100
Сжатый сетевой трафик Receive compressed — количество сжатых пакетов, полученных в секунду на каждом интерфейсе
Transmit compressed — количество сжатых пакетов, переданных в секунду на каждом интерфейсе
packets/sec
Сетевой трафик FIFO Receive fifo — количество FIFO-пакетов, полученных в секунду на каждом интерфейсе
Transmit fifo — количество FIFO-пакетов, переданных в секунду на каждом интерфейсе
packets/sec
Сетевой трафик носителя Statistic transmit_carrier — количество потерь носителя, обнаруженных каждым интерфейсом short
NF Contrack NF conntrack entries — количество отслеживаемых соединений
NF conntrack limit — максимальное разрешенное количество отслеживаемых соединений
short
MTU Максимальный размер пакетов, которые могут быть получены на каждом интерфейсе bytes
Длина очереди Длина очереди передачи для каждого интерфейса short
Softnet вне квоты Статус бэклога на каждом CPU 0-1

3.14 Сокеты сети (Sockstat)

Имя метрики Описание Единица Уровень серьезности Рекомендуемый порог оповещения
Sockstat TCP TCP_alloc — количество выделенных TCP-сокетов (установленные, с назначенными sk_buff)
TCP_inuse — количество TCP-сокетов, используемых в настоящее время (в состоянии прослушивания)
TCP_mem — использование буфера TCP-сокетов
TCP_orphan — количество «сиротских» (не связанных ни с каким процессом) TCP-соединений (бесполезные, ожидающие уничтожения)
TCP_tw — количество TCP-соединений, ожидающих закрытия
short
Sockstats FRG / RAW FRAG_inuse — количество используемых сокетов Frag
FRAG_memory — использование буфера Frag
RAW_inuse — количество используемых Raw-сокетов
short
Sockstat Используемые Sockets_used — общее количество сокетов, используемых всеми протоколами short
Sockstat UDP UDPLITE_inuse — количество используемых UDP-Lite-сокетов short
Sockstat Размер памяти TCP_mem_bytes — размер буфера TCP-сокетов в байтах
UDP_mem_bytes — размер буфера UDP-сокетов в байтах
bytes

3.15 Статистика сети (Netstat)

Имя метрики Описание Единица Уровень серьезности Рекомендуемый порог оповещения
Netstat IP ввода/вывода октетов InOctets — количество полученных октетов
OutOctets — количество переданных октетов
short
ICMP ввода/вывода InMsgs — количество полученных ICMP-сообщений (включает icmpInErrors)
OutMsgs — количество попыток отправить ICMP-сообщения (включает icmpOutErrors)
short
UDP ввода/вывода InDatagrams — среднее количество полученных UDP-датаграмм (за 5 минут)
OutDatagrams — среднее количество отправленных UDP-датаграмм (за 5 минут)
short
TCP ввода/вывода InSegs — полученные сегменты, включая ошибочные. Включает сегменты, полученные на текущих установленных соединениях
OutSegs — отправленные сегменты, включая сегменты на текущих соединениях, исключая сегменты, содержащие только повторно переданные октеты
short
TCP-соединения CurrEstab — количество TCP-соединений в состоянии ESTABLISHED или CLOSE-WAIT short
Прямые переходы TCP ActiveOpens — количество TCP-соединений, перешедших напрямую из CLOSED в SYN-SENT
PassiveOpens — количество TCP-соединений, перешедших напрямую из LISTEN в SYN-RCVD
short
Netstat IP-маршрутизация Forwarding — количество переадресованных IP-пакетов short
Ошибки ICMP InErrors — ICMP-сообщения, полученные с ошибками, специфичными для ICMP (например, неверная контрольная сумма, некорректная длина) short
Ошибки UDP InCsumErrors — среднее количество UDP-пакетов с ошибками контрольной суммы (за 5 минут)
InErrors — среднее количество входящих UDP-пакетов, которые невозможно доставить по причинам, отличным от отсутствия слушателя (за 5 минут)
RcvbufErrors — среднее количество UDP-пакетов, отброшенных из-за переполнения буфера приема (за 5 минут)
SndbufErrors — среднее количество UDP-пакетов, отброшенных из-за переполнения буфера отправки (за 5 минут)
NoPorts — среднее количество UDP-пакетов, полученных на неизвестных портах (за 5 минут)
short p3 100
Ошибки TCP ListenOverflows — количество раз, когда очередь прослушивания сокета переполнилась
ListenDrops — количество игнорируемых SYN-запросов на сокетах в состоянии LISTEN
TCPSynRetrans — повторные передачи SYN или SYN/ACK для срыва установки соединения, включая быстрые и таймаутные повторы
RetransSegs — количество повторно переданных сегментов (сегменты, содержащие один или несколько ранее переданных октетов)
InErrs — сегменты, полученные с ошибками (например, неверная контрольная сумма TCP)
OutRsts — сегменты, отправленные с флагом RST
short p3 100
TCP SyncCookie SyncookiesFailed — количество недействительных SYN-куки, полученных
SyncookiesRecv — количество SYN-куки, полученных
SyncookiesSent — количество SYN-куки, отправленных
short

3.16 Node Exporter

Имя метрики Описание Единица Уровень серьезности Рекомендуемый порог оповещения
Время сбора данных Node Exporter Продолжительность каждого сбора данных коллектиром seconds
Сбор данных Node Exporter Количество коллектируемых компонентов, работающих нормально short

4 YMatrix Host ext

Имя метрики Описание Единица Уровень серьезности Рекомендуемый порог оповещения
5-минутная нагрузка хоста Средняя 5-минутная нагрузка на выбранных хостах short
Использование памяти хоста Процент использования памяти на выбранных хостах 0-1
Процент загрузки CPU Процент использования CPU 0-1
Использование дискового ввода-вывода Скорость использования дискового ввода-вывода 0-1
Использование свободного места Использование свободного дискового пространства на выбранных хостах 0-1
Сетевой трафик отправленный Сетевой трафик, переданный выбранными хостами bit
Сетевой трафик полученный Сетевой трафик, полученный выбранными хостами bit
Использование SWAP Использование SWAP на выбранных хостах 0-1

Имя метрики Описание Единица Уровень серьезности Рекомендуемый порог оповещения
net dev Статус сетевого устройства short
softnet_stat Процент использования памяти на выбранных хостах short
hardirq_cpu Количество аппаратных прерываний CPU short
hardirq_cpu_pie Круговая диаграмма аппаратных прерываний CPU short
hardirq_quene Количество аппаратных прерываний на устройство short
hardirq_quene_pie Круговая диаграмма аппаратных прерываний на устройство short
softirq_rx Количество программных прерываний для приема данных short
softirq_rx_pie Круговая диаграмма программных прерываний для приема данных short
softirq_tx Количество программных прерываний для передачи данных short
softirq_tx_pie Круговая диаграмма программных прерываний для передачи данных short
ip Статистика приема/передачи пакетов на уровне IP short
udp Статистика приема/передачи пакетов для протокола UDP short

5 YMatrix Database ext

Имя метрики Описание Единица измерения Уровень серьезности Рекомендуемый порог оповещения
license expiration time Оставшееся время до истечения срока действия лицензии секунды (с) p3/p2 Оповещение p3, если осталось менее 15 дней
Оповещение p2, если осталось менее 7 дней; немедленно свяжитесь с YMatrix для продления лицензии
Missing partition strategy for range tables Отсутствие конфигурации стратегии партиционирования APM для таблиц с диапазонным партиционированием short p2 Необходимо срочно устранить; иначе данные будут записываться в дефолтную партицию, что снижает производительность
Range partition table creation count Количество отложенных новых партиций в таблицах с диапазонным партиционированием short p2 Необходимо срочно устранить; иначе данные будут записываться в дефолтную партицию, что снижает производительность
mars table max runs Внутренняя метрика для MARS2 short p3/p2 Оповещение p3, если значение превышает 1500; отслеживайте тренд
Оповещение p2, если значение превышает 1800
Производительность записи значительно ухудшается или становится невозможной при достижении значения 2039
Max block_items value Мгновенное количество записей пакета через mxgate short
YMatrix Total Process Count Общее количество процессов, связанных с PostgreSQL, на выбранных хостах short p2 Предотвращайте чрезмерное количество процессов, которое может привести к исчерпанию памяти; настройте по необходимости
Duplicate Index Count Количество дублирующихся индексов; рекомендуется удалить ненужные short p3
matrixgate Connection Count Общее количество подключений к процессам mxgate short
24-Hour Data Volume Change Общий объем изменений данных за последние 24 часа байты
Top10 Subpartition Count Топ-10 таблиц с наибольшим количеством субпартиций. Настройте по необходимости, чтобы избежать избыточного числа субтаблиц, что может негативно влиять на производительность запросов и потреблять больше памяти байты
Top10 Schema Size Топ-10 схем по общему размеру байты
Top10 System Table Size Топ-10 системных таблиц по общему размеру байты
Top10 Default Partition Table Size Топ-10 таблиц с дефолтными партициями по размеру байты p3 Оповещение, если дефолтная партиция слишком велика; как правило, дефолтные партиции не должны содержать данные

Имя метрики Описание Единица измерения Уровень серьезности Рекомендуемый порог оповещения
mars2 table max runs details График тренда количества запусков для таблиц MARS2 short
Database Connection Details Группировка по базе данных, клиентскому адресу и application_name short
24-Hour Database Space Change Изменение размера базы данных за 24 часа для каждой базы данных short
Total Query Duration Query Общее время выполнения запросов на всех этапах базы данных миллисекунды (мс) p3 Настройте по необходимости; исследуйте, если общее время значительно изменяется
Host YMatrix Process Trend Тренд общего количества процессов PostgreSQL на каждом хосте short

Имя метрики Описание Единица измерения Уровень серьезности Рекомендуемый порог оповещения
Table Bloat Details Список таблиц, где соотношение мертвых/живых кортежей превышает 1.1 short
Top 100 Process RSS Details Топ-100 процессов PostgreSQL, отсортированных по RSS (использование памяти) short
Slow Query Monitoring Статистика медленных SQL-запросов, выполненных в базе данных none p3
Total Duration Query Monitoring Статистика общего времени выполнения SQL-запросов миллисекунды (мс)
Duration Statistics Chart (seconds) Общее время выполнения SQL-запросов, агрегированное каждые 5 минут миллисекунды (мс)
Long Transaction Metrics Детали длительных транзакций на Master/Segment none p3
Lock Wait Information Детали ожидания блокировок в базе данных на момент сбора данных none p3 Настройте по необходимости; рекомендуется оповещать о блокировках, длящихся более 10 минут