Документ описывает метрики и рекомендуемые пороги оповещений для мониторинга YMatrix, MatrixGate и узлов хоста в дашборде Prometheus.
Описание уровней оповещений
Примечание!
Метрики без указанных порогов оповещений следует оценивать и настраивать исходя из реальных условий.

Этот раздел отображает общий статус кластера, включая:
| Метрика | Описание | Единица | Уровень | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Статус кластера | Статус узлов кластера: 0: Нормальный 1: Нет резервного узла 2: Нет зеркала 10: Неравномерное распределение (после восстановления узла роли первичного и зеркального не перебалансированы) 11: Асинхронные узлы (некоторые зеркальные узлы не синхронизированы с первичными) 12: Только мастер (работает только мастер-узел, обычно для диагностики) 20: Сегмент недоступен (недоступные сегменты, кластер неработоспособен) |
short | p0 | 20: Сегмент недоступен — критично, требует оповещения |
| Время работы | Время работы YMatrix и время работы ОС на хосте мастера | секунды (с) | ||
| Версия | Версия YMatrix | |||
| Статус подключений | Статистика подключений к базе данных: общее количество подключений, заблокированные запросы, неактивные подключения, неактивные в транзакции | short | ||
| Медленные запросы | Количество запросов, выполняющихся дольше 1 дня | short | Оповещать, если больше 0 | |
| Транзакции | Статистика фиксации и отката транзакций | short | ||
| Используемое дисковое пространство | Использование диска экземплярами мастера или сегмента | 0-1 | ||
| Статус узла | Статус каждого узла: 0: В работе (нормальный) 10: Переключение (произошло переключение ролей; требуется перебалансировка) 11: Синхронизация (в процессе синхронизации) 20: Не в работе (выключен) |
short | p2/p1 | Оповещать на уровне p2, если значение не нулевое более 5 минут Оповещать на уровне p1 при значении 20 |

Этот раздел отображает метрики производительности базы данных:
| Метрика | Описание | Единица | Уровень | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Коэффициент попаданий в кэш страниц | Доля операций чтения таблиц HEAP, попадающих в кэш блоков, относительно общего числа чтений. (Кэш включает только собственный кэш таблиц HEAP, а не кэш ОС.) Отображаемое значение — текущее; кривая показывает исторические данные. Обычно должно превышать 90% |
0-1 | ||
| Размер временных файлов | Общий объем данных, записанных во временные файлы запросами. Все временные файлы учитываются независимо от настройки log_temp_files | байты | ||
| Сессии на базу данных | Количество сессий на каждую базу данных | short | ||
| Активности | Количество сессий в различных состояниях | short | ||
| Взаимные блокировки | Количество взаимных блокировок | short | p3 | YMatrix автоматически разрешает взаимные блокировки; неудачные запросы можно повторить. Оповещение можно настроить по необходимости. |
| Ошибки контрольных сумм | Количество сбоев контрольных сумм страниц данных. NULL, если не включено | short | p3 | |
| Прочитанные строки | Количество прочитанных строк | short | ||
| Контрольные точки | Статистика контрольных точек.Оранжевый — контрольные точки, инициированные вручную.Зеленый — контрольные точки, инициированные по таймауту | short | ||
| Попадания в кэш страниц | blks_hit: количество попаданий в кэш при чтении страниц данных blks_read: количество чтений с диска из-за промахов кэша |
|||
| Задержка репликации | write_lag — Время между локальной фиксацией WAL и подтверждением получения Standby/Mirror (еще не зафиксировано и не применено). Измеряет задержку фиксации при synchronous_commit, установленном в remote_write flush_lag — Время между локальной фиксацией WAL и подтверждением flush Standby/Mirror (еще не применено). Измеряет задержку фиксации при synchronous_commit, установленном в on replay_lag — Время между локальной фиксацией WAL и подтверждением применения Standby/Mirror. Измеряет задержку фиксации при synchronous_commit, установленном в remote_apply |
миллисекунды (мс) | p3 | При стандартной синхронной репликации между Primary и Mirror значения >1с замедляют транзакции. Для асинхронной репликации порог следует увеличить соответственно. |
| Вставленные/Обновленные/Удаленные строки | Количество операций INSERT, UPDATE или DELETE | short | ||
| Буферы контрольной точки | buffers_checkpoint: буферы, записанные во время контрольной точки buffers_clean: буферы, записанные фоновым писателем buffers_backend: буферы, записанные напрямую процессами бэкенда |
short | ||
| Топ-10 размеров задержки репликации | Топ-10 размеров WAL для задержки репликации | байты | p3 | При стандартной синхронной репликации >1 ГБ вызывает замедление фиксаций. Для асинхронной репликации порог следует увеличить соответственно. |

Этот раздел отображает статистику, связанную с хранилищем:
| Метрика | Описание | Единица | Уровень | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Топ-10 баз данных | Топ-10 самых больших баз данных | байты | ||
| Топ-10 пользователей | Топ-10 пользователей по объему данных | байты | ||
| Топ-10 старых баз данных | Топ-10 баз данных по возрасту | short | p2 | Максимальный возраст базы данных — 21 Э. Экземпляр останавливается, когда остается только 1 Э. В логах предупреждение при 5 Э. Рекомендуется оповещать при 6 Э и 2 Э. |
| Топ-10 больших таблиц | Топ-10 самых больших таблиц | байты | ||
| Топ-10 больших партиций | Топ-10 самых больших партиционированных таблиц | байты | ||
| Топ-10 роста сегодня | Топ-10 таблиц с наибольшим ростом данных сегодня | байты | ||
| Топ-10 роста за последние 7 дней | Топ-10 таблиц с наибольшим ростом данных за последние 7 дней | байты |

| Метрика | Описание | Единица | Уровень | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Версия | Версия mxgate | |||
| Время работы | Время работы mxgate | секунды (с) | ||
| PID процесса | PID фонового процесса mxgate | short | p2 | Отсутствие PID может указывать на остановку mxgate |

| Метрика | Описание | Единица | Уровень | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Целевая таблица | Целевая таблица для вставки данных | |||
| Общее количество вставленных строк | Общее количество успешно вставленных строк с момента запуска mxgate | short | ||
| Общее количество неудачных вставок | Общее количество неудачных вставок с момента запуска mxgate | short | p3 | Установить порог в зависимости от требований |
| Общий объем вставленных данных | Общий объем данных, успешно вставленных с момента запуска mxgate | short | ||
| Конкурентность | Общая конкурентность: настроена как stream - prepared + 1 (максимальная конкурентность) Активное количество: фактическая конкурентность (некоторые потоки могут спать, поэтому фактическая конкурентность может быть ниже) |
short | ||
| Гранулярность времени транзакции | Интервал времени фиксации транзакций данных | short | ||
| Заблокированные целевые таблицы | Количество заблокированных целевых таблиц | short |

| Метрика | Описание | Единица | Уровень | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Зафиксированные строки | Количество строк, зафиксированных для этой задачи | short | ||
| Вставленные строки | Количество строк, вставленных для этой задачи | short | ||
| Заблокированные строки | Количество заблокированных строк для этой задачи | short | p3 | Установить порог в зависимости от требований |
| Неудачные вставки | Количество ошибок записи для этой задачи | short | p3 | Установить порог в зависимости от требований |
| Объем записанных данных | Общий объем байтов, записанных этой задачей | байты |

Задержки на этапах ввода данных, представленные как статистические значения во времени:
| Метрика | Описание | Единица | Уровень | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Общая задержка | Сумма следующих задержек | наносекунды (нс) | p3 | 30 с |
| Задержка insertStart | Время от выполнения INSERT до отправки первых данных на сегмент | наносекунды (нс) | ||
| Задержка write | Время, затраченное mxgate на отправку этой партии на сегмент | наносекунды (нс) | ||
| Задержка insertDone | Время от отправки последних данных на сегмент до завершения INSERT (перераспределение данных и сохранение на диске по сегментам) | наносекунды (нс) | ||
| Задержка commit | Время выполнения команды COMMIT | наносекунды (нс) |

| Метрика | Описание | Единица | Уровень | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Количество CHECKPOINT | Количество выполнений CHECKPOINT в минуту | short | ||
| Задержка записи CHECKPOINT | Общее время, затраченное на запись файлов на диск во время контрольной точки, в миллисекундах | миллисекунды (мс) | ||
| Задержка синхронизации CHECKPOINT | Общее время, затраченное на синхронизацию файлов на диск во время контрольной точки, в миллисекундах | миллисекунды (мс) | ||
| Количество выделенных буферов | Количество выделенных буферов | short | ||
| Количество записанных буферов на диск | Три категории: 1. Буферы, записанные во время контрольной точки 2. Буферы, записанные фоновым писателем 3. Буферы, записанные напрямую процессом бэкенда |
short | ||
| Достигнут лимит сброса грязных страниц | Количество раз, когда фоновый писатель остановился из-за превышения лимита записи буферов | short | ||
| Задержка WAL между Primary и Standby | Задержка WAL между мастером и резервным узлом или между Primary и Mirror | байты | ||
| Задержка между Primary и Standby | Задержка времени между мастером и резервным узлом или между Primary и Mirror | миллисекунды (мс) | ||
| Тренд блокировки целевой таблицы | Четыре категории: 1. Связанные с блокировками 2. Связанные с репликацией 3. Связанные с группами ресурсов 4. Связанные с очередями ресурсов |
short |

| Метрика | Описание | Единица | Уровень | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Загрузка CPU | Процент времени, в течение которого все ядра CPU заняты | 0-1 | ||
| Средняя нагрузка системы (5 мин) | Средняя нагрузка на все ядра за 5 минут | 0-1 | p3/p2 | CPU cores 3 / CPU cores 5 |
| Средняя нагрузка системы (15 мин) | Средняя нагрузка на все ядра за 15 минут | 0-1 | p3/p2 | CPU cores 3 / CPU cores 5 |
| Используемая RAM | Используемая память (общая — свободная — буфер/кэш) | 0-1 | ||
| Используемый SWAP | Используемая своп-память | 0-1 | p3 | 80% |
| Использование корневой ФС | Использование корневой файловой системы | 0-1 | p3/p2 | 60%/80% |
| Количество ядер CPU | Количество физических ядер CPU | short | ||
| Общий объем корневой ФС | Общий объем корневой файловой системы | байты | p3/p2 | 60%/80% |
| Время работы системы | Время работы системы | секунды (с) | ||
| Общий объем RAM | Общий объем памяти | байты | ||
| Общий объем SWAP | Размер своп-раздела | байты |

| Метрика | Описание | Единица | Уровень | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| CPU базовый | Базовая информация о CPU из /proc/stat | 0-1 | ||
| Память базовая | Базовая информация о памяти | байты | ||
| Трафик сети базовый | Базовая информация о сети по интерфейсам | бит | p3/p2 | 60% / 80% от максимальной пропускной способности сетевой карты |
| Использование дискового пространства базовое | Процент использования дискового пространства всех смонтированных файловых систем | 0-1 | p3 | 60% / 80% использования диска |

| Метрика | Описание | Единица | Уровень | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| CPU | Время CPU, затраченное в режиме ядра | short | ||
| Стек памяти | Стек памяти из /proc/meminfo | байты | ||
| Трафик сети | Скорость передачи по каждому сетевому интерфейсу | байты/сек | ||
| Используемое дисковое пространство | Используемое дисковое пространство на всех смонтированных файловых системах | байты | ||
| Операции ввода-вывода диска | Операции чтения/записи диска | I/O операций/сек (iops) | ||
| Пропускная способность чтения/записи | Пропускная способность чтения/записи диска | байты | ||
| Использование I/O | Использование I/O | 0-1 | p3/p2 | 60% / 80% |
| Время CPU, затраченное на гостевые системы (ВМ) | Время, затраченное на выполнение гостевой системы с nice-значением | миллисекунды (мс) |

| Метрика | Описание | Единица | Уровень | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Активная / Неактивная память | Часто/недавно используемая память против редко используемой | |||
| Детализация активной / неактивной памяти | Inactive_file — страницы, основанные на файлах, не доступные недавно (LRU_INACTIVE_FILE) Inactive_anon — анонимные страницы, не доступные недавно (LRU_INACTIVE_ANON) Active_file — недавно доступные страницы, основанные на файлах (LRU_ACTIVE_FILE) Active_anon — недавно доступные анонимные страницы (LRU_ACTIVE_ANON) |
байты | ||
| Разделяемая и сопоставленная память | Mapped — память, используемая сопоставленными страницами кэша (Mapped) Shmem — разделяемая память (Shmem) |
байты | ||
| Vmalloc | VmallocChunk — наибольший непрерывный блок vmalloc памяти VmallocTotal — общий объем доступной vmalloc памяти VmallocUsed — общий объем используемой vmalloc памяти |
байты | ||
| Анонимная память | Active_anon — недавно используемые анонимные виртуальные страницы памяти (nr_active_anon) Active_file — недавно используемые виртуальные страницы памяти, основанные на файлах (nr_active_file) |
байты | ||
| Счетчик HugePages | HugePages_Free — количество свободных HugePages HugePages_Rsvd — зарезервированные HugePages (запрошены, но еще не выделены) HugePages_Surp — избыточные HugePages сверх настроенного количества резидентных |
байты | ||
| DirectMap | DirectMap1G — память, сопоставленная страницами 1 ГБ DirectMap2M — память, сопоставленная страницами 2 МБ DirectMap4K — память, сопоставленная страницами 4 КБ |
байты | ||
| NFS | NFS Unstable — страницы, отправленные на сервер NFS, но еще не записанные на диск | байты | ||
| Committed | Текущая выделенная память (включая выделенную, но неиспользуемую) Общий объем доступной для выделения памяти |
байты | p3/p2 | 60% / 80% |
| Writeback и Dirty | Writeback — страницы, активно записываемые на диск WritebackTmp — память, используемая FUSE для временных буферов записи Dirty — данные, ожидающие записи на диск |
байты | ||
| Slab | Reclaimable — восстанавливаемая slab-память (nr_slab_reclaimable) Unreclaimable — невосстанавливаемая slab-память (nr_slab_unreclaimable) |
байты | ||
| Bounce | Bounce — память, используемая bounce-буферами | байты | ||
| Ядро / CPU | KernelStack — размер стека ядра (резидентный, невосстанавливаемый) PerCPU — память, выделенная на каждый CPU для загрузки модулей |
байты | ||
| Размер HugePages | HugePages — общее количество HugePages Hugepagesize — размер одной HugePage |
байты | ||
| Unevictable MLocked | Unevictable — невыгружаемая память MLocked — память, заблокированная mlock() |
байты |

| Метрика | Описание | Единица | Уровень | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Страницы памяти ввода/вывода | Pagesin — скорость чтения данных с диска в физическую память (среднее за 5 минут) Pagesout — скорость записи данных из физической памяти на диск (среднее за 5 минут) |
short | ||
| Ошибки страниц памяти | Pgfault — среднее количество мелких и крупных ошибок страниц (среднее за 5 минут) Pgmajfault — среднее количество крупных ошибок страниц Pgminfault — среднее количество мелких ошибок страниц |
short | ||
| Страницы подкачки ввода/вывода | Pswpin — скорость подкачки данных с диска в память (среднее за 5 минут) Pswpout — скорость выгрузки данных из памяти на диск (среднее за 5 минут) |
short | ||
| OOM Killer | Количество вызовов OOM Killer | short | p3 | Оповещать при любом изменении |

| Метрика | Описание | Единица | Уровень | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Смещение синхронизации времени | Оценочная ошибка (секунды) Смещение времени между локальной системой и эталонными часами Максимальная ошибка (секунды) |
short | ||
| Статус синхронизации времени | Синхронизированы ли часы с надежным сервером Оценочная ошибка (секунды) |
short | ||
| Корректировка PLL времени | Корректировка времени с помощью фазовой автоподстройки частоты | short | ||
| Разное время | Секунды между тактами часов Смещение TAI (международное атомное время) |
short |

| Метрика | Описание | Единица | Уровень | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Статус процессов | Processes blocked — количество текущих заблокированных задач (procs_blocked) Processes in runnable state — количество задач в очереди выполнения (procs_running) |
short | p3 | blocked: 10 |
| Создание процессов | Количество создаваемых процессов в секунду | short | ||
| Количество и лимит PID | Текущее количество запущенных процессов Максимальный лимит процессов на хосте |
short | p3/p2 | 15000 / 20000 |
| Память процессов | Виртуальная память, используемая процессами Максимально доступная виртуальная память для процессов |
bytes | ||
| Статистика планирования процессов: выполнение / ожидание | Время запуска процесса Время ожидания CPU |
ms | ||
| Количество и лимит потоков | Общее количество потоков Максимальный лимит потоков на хосте |
short |

| Метрика | Описание | Единица | Уровень | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Переключения контекста / прерывания | Context switches — среднее количество переключений контекста CPU (среднее за 5 минут) Interrupts — среднее общее количество обработанных прерываний (среднее за 5 минут) |
short | ||
| Детализация прерываний | Список мягких прерываний и их среднее количество (среднее за 5 минут) | short | ||
| Энтропия | Доступная энтропия для генерации случайных чисел | short | ||
| Дескрипторы файлов | Максимальное количество открытых дескрипторов файлов Текущее количество открытых дескрипторов файлов |
short | ||
| Временные кванты, запланированные каждым CPU | Кванты времени, запланированные для каждого CPU | short | ||
| Время CPU в пользовательском и системном контекстах | Время CPU, затраченное в пользовательском и системном контекстах | short |

| Метрика | Описание | Единица | Уровень | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Мониторинг температуры оборудования | Мониторинг температуры оборудования | Celsius (℃) | ||
| Питание | Статус питания | short | ||
| Устройство охлаждения | Статус устройства охлаждения | short |

| Метрика | Описание | Единица | Уровень | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Systemd сокеты | Общее количество принятых соединений на сокетах | short | ||
| Состояние юнитов Systemd | inactive — неактивные юниты Systemd failed — неудачные юниты Systemd deactivating — деактивируемые юниты active — активные юниты activating — активируемые юниты |
short |

| Имя метрики | Описание | Единица | Уровень серьезности | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Завершенные операции ввода-вывода диска | Количество завершенных операций чтения в секунду на каждом разделе диска Количество завершенных операций записи в секунду на каждом разделе диска |
I/O ops/sec (iops) | ||
| Среднее время ожидания диска | Среднее время ожидания операций чтения на каждом диске Среднее время ожидания операций записи на каждом диске |
Milliseconds (ms) | p3 | 1s |
| Объединенные операции чтения/записи | Количество объединенных операций чтения в секунду на каждом разделе диска Количество объединенных операций записи в секунду на каждом разделе диска |
I/O ops/sec (iops) | ||
| Мгновенный размер очереди | Мгновенный размер очереди; количество ожидающих запросов на момент выборки. Увеличивается при постановке запросов в request_queue, уменьшается по завершению запросов | short | ||
| Данные чтения/записи диска | Количество байт, считываемых в секунду с каждого раздела диска Количество байт, записываемых в секунду на каждый раздел диска |
bytes/sec | ||
| Средний размер очереди | Средняя длина очереди запросов, отправленных устройству | short | ||
| Время, затраченное на операции ввода-вывода | Процент времени, в течение которого запросы ввода-вывода отправлялись устройству (использование пропускной способности устройства). Для устройств, обрабатывающих запросы последовательно, значение, приближающееся к 100%, указывает на перегрузку. Для параллельных устройств, таких как RAID-массивы и современные SSD, это значение не обязательно отражает пределы производительности. | 0-1 | ||
| Завершенные/объединенные операции освобождения диска | Завершенные операции освобождения диска (IOPS) Объединенные операции освобождения диска (IOPS) |
I/O ops/sec (iops) |

| Имя метрики | Описание | Единица | Уровень серьезности | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Доступное место файловой системы | Доступное пространство на смонтированных файловых системах Свободное пространство на смонтированных файловых системах Используемое пространство на смонтированных файловых системах |
bytes | p3/p2 | 60%/80% |
| Дескрипторы файлов | Максимальное количество открытых дескрипторов файлов — максимальное число открытых дескрипторов Открытые дескрипторы файлов — количество текущих открытых дескрипторов |
short | ||
| Файловая система в режиме только для чтения / ошибка | Файловые системы, смонтированные в режиме только для чтения Количество ошибок устройства — количество ошибок устройства |
short | p3 | |
| Свободные узлы файлов | Свободные узлы файлов: количество оставшихся инодов на смонтированных файловых системах | short | p3 | 60% |
| Размер узлов файлов | Общее количество узлов файлов: общее число инодов на смонтированных файловых системах | short |

| Имя метрики | Описание | Единица | Уровень серьезности | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Сетевой трафик по пакетам | Receive — общее количество полученных пакетов в секунду на всех интерфейсах Transmit — общее количество переданных пакетов в секунду на всех интерфейсах |
packets/sec | ||
| Потерянные пакеты сети | Receive drop — общее количество отброшенных полученных пакетов в секунду на каждом интерфейсе Transmit drop — общее количество отброшенных переданных пакетов в секунду на каждом интерфейсе |
packets/sec | p3 | 100 |
| Мультикаст-трафик сети | Receive multicast — количество мультикаст-пакетов, полученных в секунду на каждом интерфейсе | packets/sec | ||
| Фреймы сети | Receive frame — количество фреймов, полученных в секунду на каждом интерфейсе | packets/sec | ||
| Коллизии сети | Transmit colls — количество коллизий, обнаруженных на каждом интерфейсе | short | ||
| ARP-записи | ARP entries — количество записей в ARP-таблице на каждом интерфейсе | short | ||
| Скорость | Speed — максимальная пропускная способность сетевого интерфейса | bytes | ||
| Пакеты softnet | Processed — количество пакетов, обработанных на каждом CPU Dropped — количество пакетов, отброшенных на каждом CPU |
|||
| Статус работы сети | Physical link state — физическое состояние подключения каждого сетевого интерфейса | short | ||
| Ошибки сетевого трафика | Receive errors — общее количество ошибочных пакетов, полученных в секунду на каждом интерфейсе Transmit errors — общее количество ошибочных пакетов, переданных в секунду на каждом интерфейсе |
packets/sec | p3 | 100 |
| Сжатый сетевой трафик | Receive compressed — количество сжатых пакетов, полученных в секунду на каждом интерфейсе Transmit compressed — количество сжатых пакетов, переданных в секунду на каждом интерфейсе |
packets/sec | ||
| Сетевой трафик FIFO | Receive fifo — количество FIFO-пакетов, полученных в секунду на каждом интерфейсе Transmit fifo — количество FIFO-пакетов, переданных в секунду на каждом интерфейсе |
packets/sec | ||
| Сетевой трафик носителя | Statistic transmit_carrier — количество потерь носителя, обнаруженных каждым интерфейсом | short | ||
| NF Contrack | NF conntrack entries — количество отслеживаемых соединений NF conntrack limit — максимальное разрешенное количество отслеживаемых соединений |
short | ||
| MTU | Максимальный размер пакетов, которые могут быть получены на каждом интерфейсе | bytes | ||
| Длина очереди | Длина очереди передачи для каждого интерфейса | short | ||
| Softnet вне квоты | Статус бэклога на каждом CPU | 0-1 |

| Имя метрики | Описание | Единица | Уровень серьезности | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Sockstat TCP | TCP_alloc — количество выделенных TCP-сокетов (установленные, с назначенными sk_buff) TCP_inuse — количество TCP-сокетов, используемых в настоящее время (в состоянии прослушивания) TCP_mem — использование буфера TCP-сокетов TCP_orphan — количество «сиротских» (не связанных ни с каким процессом) TCP-соединений (бесполезные, ожидающие уничтожения) TCP_tw — количество TCP-соединений, ожидающих закрытия |
short | ||
| Sockstats FRG / RAW | FRAG_inuse — количество используемых сокетов Frag FRAG_memory — использование буфера Frag RAW_inuse — количество используемых Raw-сокетов |
short | ||
| Sockstat Используемые | Sockets_used — общее количество сокетов, используемых всеми протоколами | short | ||
| Sockstat UDP | UDPLITE_inuse — количество используемых UDP-Lite-сокетов | short | ||
| Sockstat Размер памяти | TCP_mem_bytes — размер буфера TCP-сокетов в байтах UDP_mem_bytes — размер буфера UDP-сокетов в байтах |
bytes |

| Имя метрики | Описание | Единица | Уровень серьезности | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Netstat IP ввода/вывода октетов | InOctets — количество полученных октетов OutOctets — количество переданных октетов |
short | ||
| ICMP ввода/вывода | InMsgs — количество полученных ICMP-сообщений (включает icmpInErrors) OutMsgs — количество попыток отправить ICMP-сообщения (включает icmpOutErrors) |
short | ||
| UDP ввода/вывода | InDatagrams — среднее количество полученных UDP-датаграмм (за 5 минут) OutDatagrams — среднее количество отправленных UDP-датаграмм (за 5 минут) |
short | ||
| TCP ввода/вывода | InSegs — полученные сегменты, включая ошибочные. Включает сегменты, полученные на текущих установленных соединениях OutSegs — отправленные сегменты, включая сегменты на текущих соединениях, исключая сегменты, содержащие только повторно переданные октеты |
short | ||
| TCP-соединения | CurrEstab — количество TCP-соединений в состоянии ESTABLISHED или CLOSE-WAIT | short | ||
| Прямые переходы TCP | ActiveOpens — количество TCP-соединений, перешедших напрямую из CLOSED в SYN-SENT PassiveOpens — количество TCP-соединений, перешедших напрямую из LISTEN в SYN-RCVD |
short | ||
| Netstat IP-маршрутизация | Forwarding — количество переадресованных IP-пакетов | short | ||
| Ошибки ICMP | InErrors — ICMP-сообщения, полученные с ошибками, специфичными для ICMP (например, неверная контрольная сумма, некорректная длина) | short | ||
| Ошибки UDP | InCsumErrors — среднее количество UDP-пакетов с ошибками контрольной суммы (за 5 минут) InErrors — среднее количество входящих UDP-пакетов, которые невозможно доставить по причинам, отличным от отсутствия слушателя (за 5 минут) RcvbufErrors — среднее количество UDP-пакетов, отброшенных из-за переполнения буфера приема (за 5 минут) SndbufErrors — среднее количество UDP-пакетов, отброшенных из-за переполнения буфера отправки (за 5 минут) NoPorts — среднее количество UDP-пакетов, полученных на неизвестных портах (за 5 минут) |
short | p3 | 100 |
| Ошибки TCP | ListenOverflows — количество раз, когда очередь прослушивания сокета переполнилась ListenDrops — количество игнорируемых SYN-запросов на сокетах в состоянии LISTEN TCPSynRetrans — повторные передачи SYN или SYN/ACK для срыва установки соединения, включая быстрые и таймаутные повторы RetransSegs — количество повторно переданных сегментов (сегменты, содержащие один или несколько ранее переданных октетов) InErrs — сегменты, полученные с ошибками (например, неверная контрольная сумма TCP) OutRsts — сегменты, отправленные с флагом RST |
short | p3 | 100 |
| TCP SyncCookie | SyncookiesFailed — количество недействительных SYN-куки, полученных SyncookiesRecv — количество SYN-куки, полученных SyncookiesSent — количество SYN-куки, отправленных |
short |

| Имя метрики | Описание | Единица | Уровень серьезности | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Время сбора данных Node Exporter | Продолжительность каждого сбора данных коллектиром | seconds | ||
| Сбор данных Node Exporter | Количество коллектируемых компонентов, работающих нормально | short |

| Имя метрики | Описание | Единица | Уровень серьезности | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| 5-минутная нагрузка хоста | Средняя 5-минутная нагрузка на выбранных хостах | short | ||
| Использование памяти хоста | Процент использования памяти на выбранных хостах | 0-1 | ||
| Процент загрузки CPU | Процент использования CPU | 0-1 | ||
| Использование дискового ввода-вывода | Скорость использования дискового ввода-вывода | 0-1 | ||
| Использование свободного места | Использование свободного дискового пространства на выбранных хостах | 0-1 | ||
| Сетевой трафик отправленный | Сетевой трафик, переданный выбранными хостами | bit | ||
| Сетевой трафик полученный | Сетевой трафик, полученный выбранными хостами | bit | ||
| Использование SWAP | Использование SWAP на выбранных хостах | 0-1 |

| Имя метрики | Описание | Единица | Уровень серьезности | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| net dev | Статус сетевого устройства | short | ||
| softnet_stat | Процент использования памяти на выбранных хостах | short | ||
| hardirq_cpu | Количество аппаратных прерываний CPU | short | ||
| hardirq_cpu_pie | Круговая диаграмма аппаратных прерываний CPU | short | ||
| hardirq_quene | Количество аппаратных прерываний на устройство | short | ||
| hardirq_quene_pie | Круговая диаграмма аппаратных прерываний на устройство | short | ||
| softirq_rx | Количество программных прерываний для приема данных | short | ||
| softirq_rx_pie | Круговая диаграмма программных прерываний для приема данных | short | ||
| softirq_tx | Количество программных прерываний для передачи данных | short | ||
| softirq_tx_pie | Круговая диаграмма программных прерываний для передачи данных | short | ||
| ip | Статистика приема/передачи пакетов на уровне IP | short | ||
| udp | Статистика приема/передачи пакетов для протокола UDP | short |

| Имя метрики | Описание | Единица измерения | Уровень серьезности | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| license expiration time | Оставшееся время до истечения срока действия лицензии | секунды (с) | p3/p2 | Оповещение p3, если осталось менее 15 дней Оповещение p2, если осталось менее 7 дней; немедленно свяжитесь с YMatrix для продления лицензии |
| Missing partition strategy for range tables | Отсутствие конфигурации стратегии партиционирования APM для таблиц с диапазонным партиционированием | short | p2 | Необходимо срочно устранить; иначе данные будут записываться в дефолтную партицию, что снижает производительность |
| Range partition table creation count | Количество отложенных новых партиций в таблицах с диапазонным партиционированием | short | p2 | Необходимо срочно устранить; иначе данные будут записываться в дефолтную партицию, что снижает производительность |
| mars table max runs | Внутренняя метрика для MARS2 | short | p3/p2 | Оповещение p3, если значение превышает 1500; отслеживайте тренд Оповещение p2, если значение превышает 1800 Производительность записи значительно ухудшается или становится невозможной при достижении значения 2039 |
| Max block_items value | Мгновенное количество записей пакета через mxgate | short | ||
| YMatrix Total Process Count | Общее количество процессов, связанных с PostgreSQL, на выбранных хостах | short | p2 | Предотвращайте чрезмерное количество процессов, которое может привести к исчерпанию памяти; настройте по необходимости |
| Duplicate Index Count | Количество дублирующихся индексов; рекомендуется удалить ненужные | short | p3 | |
| matrixgate Connection Count | Общее количество подключений к процессам mxgate | short | ||
| 24-Hour Data Volume Change | Общий объем изменений данных за последние 24 часа | байты | ||
| Top10 Subpartition Count | Топ-10 таблиц с наибольшим количеством субпартиций. Настройте по необходимости, чтобы избежать избыточного числа субтаблиц, что может негативно влиять на производительность запросов и потреблять больше памяти | байты | ||
| Top10 Schema Size | Топ-10 схем по общему размеру | байты | ||
| Top10 System Table Size | Топ-10 системных таблиц по общему размеру | байты | ||
| Top10 Default Partition Table Size | Топ-10 таблиц с дефолтными партициями по размеру | байты | p3 | Оповещение, если дефолтная партиция слишком велика; как правило, дефолтные партиции не должны содержать данные |

| Имя метрики | Описание | Единица измерения | Уровень серьезности | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| mars2 table max runs details | График тренда количества запусков для таблиц MARS2 | short | ||
| Database Connection Details | Группировка по базе данных, клиентскому адресу и application_name | short | ||
| 24-Hour Database Space Change | Изменение размера базы данных за 24 часа для каждой базы данных | short | ||
| Total Query Duration Query | Общее время выполнения запросов на всех этапах базы данных | миллисекунды (мс) | p3 | Настройте по необходимости; исследуйте, если общее время значительно изменяется |
| Host YMatrix Process Trend | Тренд общего количества процессов PostgreSQL на каждом хосте | short |


| Имя метрики | Описание | Единица измерения | Уровень серьезности | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Table Bloat Details | Список таблиц, где соотношение мертвых/живых кортежей превышает 1.1 | short | ||
| Top 100 Process RSS Details | Топ-100 процессов PostgreSQL, отсортированных по RSS (использование памяти) | short | ||
| Slow Query Monitoring | Статистика медленных SQL-запросов, выполненных в базе данных | none | p3 | |
| Total Duration Query Monitoring | Статистика общего времени выполнения SQL-запросов | миллисекунды (мс) | ||
| Duration Statistics Chart (seconds) | Общее время выполнения SQL-запросов, агрегированное каждые 5 минут | миллисекунды (мс) | ||
| Long Transaction Metrics | Детали длительных транзакций на Master/Segment | none | p3 | |
| Lock Wait Information | Детали ожидания блокировок в базе данных на момент сбора данных | none | p3 | Настройте по необходимости; рекомендуется оповещать о блокировках, длящихся более 10 минут |