Этот документ описывает метрики, связанные с YMatrix, на дашборде мониторинга Grafana, а также предоставляет рекомендуемые пороги для оповещений.
Описание уровней оповещений
Примечание!
Для метрик без указанных порогов оповещений рекомендуется определить и настроить условия оповещения на основе реальных условий эксплуатации.

Этот раздел отображает общее состояние работы кластера, включая:
| Метрика | Описание | Единица | Уровень | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Статус кластера | Статус узлов кластера: 0: Нормальный 1: Нет резервного узла 2: Нет зеркала 10: Несбалансированные данные (после восстановления узла роли основной/зеркальной не были перераспределены) 11: Несинхронизированные узлы (некоторые зеркальные узлы не синхронизированы с основными) 12: Только мастер (работает только мастер-узел, обычно используется при диагностике) 20: Сегмент недоступен (существуют недоступные сегменты; кластер неработоспособен) |
short | p0 | 20: Сегмент недоступен — критическое событие; требуется оповещение |
| uptime | Время работы. Включает время работы YMatrix с момента запуска и время работы операционной системы хоста мастера | секунды (с) | ||
| Версия | Версия YMatrix | |||
| Статус подключений | Статистика подключений в системе базы данных: общее количество подключений (Total), заблокированные запросы (Blocked), неактивные подключения (Idle), неактивные в транзакции (Idle in TXN) | short | ||
| Долгие запросы | Долгие выполняющиеся запросы. Количество запросов, выполняющихся более 1 дня | short | p3 | Оповещать, если значение больше 0 — указывает на крайне медленные запросы |
| Статус узлов | Статус каждого узла: 0: В работе (нормальный) 10: Смена роли (произошла смена роли; требуется перебалансировка) 11: Синхронизация (синхронизация между основным и зеркальным узлом) 20: Не в работе (узел недоступен) |
short | Оповещать при значениях 11 и 20 | |
| license_expire_date | Оставшееся время до истечения срока действия лицензии | секунды (с) | p3/p2 | Истечение срока может привести к сбоям компонентов; требуется оперативное решение; оповещать при оставшемся сроке 30–15 дней |
| Используемое дисковое пространство | Использование диска на экземплярах мастера или сегмента | 0-1 | Рекомендуется настраивать оповещения напрямую в node_exporter | |
| Доступно | Свободное дисковое пространство на экземплярах мастера или сегмента | 0-1 | Рекомендуется настраивать оповещения напрямую в node_exporter | |
| CPU | Использование CPU хоста | 0-1 | ||
| Память | Информация об использовании памяти | 0-1 | ||
| Нагрузка | Нагрузка хоста | short | ||
| Транзакции | Статистика фиксации и отката транзакций | short | Можно задать порог для откатов | |
| DiskIO | Объем данных, записанных на диск | байты | ||
| Сеть | Объем сетевого трафика | байты | ||
| Процессы | Количество процессов в различных состояниях | short |

| Метрика | Описание | Единица | Уровень | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Топ-10 дисков по загрузке | Топ-10 дисков по уровню загрузки | 0-1 | Рекомендуется настраивать в node_exporter | |
| Пропускная способность диска | Пропускная способность диска | байты | Рекомендуется настраивать в node_exporter | |
| IOPS диска | Операции чтения/записи диска (синий — чтение, оранжевый — запись, абсолютные значения) | I/O операций/сек | Рекомендуется настраивать в node_exporter |

| Метрика | Описание | Единица | Уровень | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| NetStat | Состояние сети | short | Рекомендуется настраивать в node_exporter | |
| Пропускная способность сети | Пропускная способность сети (синий — приём, оранжевый — передача, абсолютные значения) | байты | Рекомендуется настраивать в node_exporter | |
| Сетевой ввод-вывод | Операции сетевого ввода-вывода (зелёный — приём, жёлтый — передача, абсолютные значения) | io/сек | Рекомендуется настраивать в node_exporter | |
| Потерянные пакеты/сек | Количество пакетов, отброшенных из-за нехватки буферов ядра | short | p3 | Рекомендуется настраивать в node_exporter |
| Ошибки пакетов/сек | Количество неудачных операций отправки/приёма пакетов | пакетов/сек | Рекомендуется настраивать в node_exporter |

| Метрика | Описание | Единица | Уровень | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| IO TPS | Общее количество физических операций диска в секунду. Одна операция — это запрос ввода-вывода к физическому устройству. Несколько логических запросов могут быть объединены в один запрос устройства. Объём данных на операцию не фиксирован | iops | ||
| Переключения контекста/сек | Количество переключений контекста ядра в секунду (максимум и среднее по хостам) | short | ||
| Память | Использовано — процент используемой памяти Buff/Cache — процент памяти, используемой для буферов и кеша |
0-1 | ||
| Статистика страниц | PageIn/s — Общий объём страниц, считываемых с диска в секунду PageOut/s — Общий объём страниц, записываемых на диск в секунду Примечание: В ядрах версий 2.2.x и ранее это значение представляет количество страниц, а не общий объём |
КБ | ||
| Пропускная способность ввода-вывода | Read — Количество блоков, считываемых с диска в секунду Write — Количество блоков, записываемых на диск в секунду В ядре 2.4 и выше один блок равен сектору (512 байт). Размер блока варьируется в более ранних ядрах |
iops | ||
| Процессы, созданные/сек | Количество созданных процессов в секунду | short | ||
| Выделенная память | Использование памяти при текущей нагрузке. Это значение может превышать 100% из-за переоценки памяти ядром | 0-1 | p3/p2 | Оповещать при 60%–80%; если OOM-защита не настроена, процессы могут быть убиты OOM-killer'ом |
| Ошибки страниц | fault/s — Количество ошибок страниц в секунду. Ошибки страниц не всегда вызывают ввод-вывод, так как некоторые могут быть разрешены без доступа к диску majflt/s — Крупные ошибки страниц, требующие загрузки страниц с диска |
short | ||
| Дескрипторы файлов | Количество используемых дескрипторов файлов системой | short | ||
| Прерывания/сек | Количество прерываний в секунду | short | ||
| Статистика памяти | frmpg/s — Количество освобождаемых страниц памяти в секунду (отрицательные значения — выделение страниц) bufpg/s — Дополнительные страницы, используемые для буферов в секунду (отрицательные значения — меньше страниц используется) campg/s — Дополнительные страницы, добавляемые в кеш в секунду (отрицательные значения — меньше кеширования) Примечание: Размер страницы может составлять 4 КБ или 8 КБ в зависимости от архитектуры |
страницы | ||
| Активность свопа | Количество страниц, перемещаемых в своп/из свопа в секунду | страницы | ||
| Нагрузка | Load1 — Средняя нагрузка системы за 1 минуту. Представляет среднее количество задач в состоянии выполнения, запущенных или в непрерываемом сне Load5 — Средняя нагрузка за 5 минут Load15 — Средняя нагрузка за 15 минут |
short | p3/p2 | Количество ядер CPU × 3 / Количество ядер CPU × 5 |
| Очередь выполнения | Длина очереди выполнения (количество задач, ожидающих запуска). Фиолетовый показывает максимум по всем хостам, Зелёный — среднее | short | ||
| Использование Hugepage | Использование памяти Hugepage | 0-1 | ||
| %vmeff | Отношение количества освобождённых страниц к количеству просканированных. Более высокое значение означает, что большинство просканированных страниц освобождаются. 100% означает, что каждая просканированная страница освобождается. Низкое значение (<30%) указывает на трудности с освобождением памяти. 0 означает, что страницы не сканировались. Идеальные значения — 0 или 100% | 0-1 | ||
| iNodes | Количество используемых дескрипторов i-node системой | short | p3 | |
| Псевдотерминалы | Количество используемых псевдотерминалов системой | short | ||
| Неиспользуемые записи кеша | Количество неиспользуемых записей в кеше каталогов (розовый — минимум по хостам, жёлтый — среднее) | short | ||
| Доступная энтропия | Система собирает «истинную» случайность из различных событий (например, сетевая активность, аппаратные генераторы случайных чисел) и передаёт её в пул энтропии ядра, используемый /dev/random. Приложения с высокими требованиями к безопасности часто используют /dev/random в качестве источника энтропии. Если /dev/random исчерпывает энтропию, он блокируется до появления новой случайности, что может остановить зависящие от него приложения | short |
Интерфейс базы данных YMatrix включает два раздела: Производительность базы данных и Хранилище.

Этот раздел отображает метрики производительности базы данных, включая:
| Метрика | Описание | Единица | Уровень | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Коэффициент попаданий в кеш | Отношение операций чтения таблиц HEAP, попавших в блочный кеш, к общему числу операций чтения. (Кеш включает только внутренний кеш таблиц HEAP, а не кеш ОС.) Отображаемое значение — текущее; кривая показывает исторические данные Обычно должно быть выше 90% |
0-1 | ||
| Размер временных файлов | Общий объём данных, записанных во временные файлы запросами. Все временные файлы учитываются независимо от причины их создания или настройки log_temp_files | байты | ||
| Сессии на базу данных | Количество сессий на каждую базу данных | short | p2/p1 | Оповещать при 60% и 80% от максимального числа подключений |
| Активности | Количество сессий в различных состояниях | short | ||
| Взаимоблокировки | Количество обнаруженных взаимоблокировок | short | Оповещать, если значение больше 0 | |
| Ошибки контрольных сумм | Количество ошибок контрольных сумм страниц базы данных. NULL, если не включено | short | p3 | |
| Прочитанные строки | Количество прочитанных строк данных | short | ||
| Контрольные точки | Статистика контрольных точек.Оранжевый — контрольные точки, инициированные явными запросами, Зелёный — автоматические контрольные точки по таймауту | short | ||
| Попадания в кеш страниц | blks_hit — Количество попаданий в кеш при чтении страниц данных blks_read — Количество чтений с диска из-за промахов кеша |
|||
| Задержка репликации | write_lag — Время между локальным flush WAL и подтверждением получения Standby/Mirror (но ещё не flush или применением). При настройке Standby/Mirror измеряет задержку фиксации при synchronous_commit, установленном в remote_write flush_lag — Время между локальным flush WAL и подтверждением flush Standby/Mirror (но ещё не применением). Измеряет задержку фиксации при synchronous_commit, установленном в on replay_lag — Время между локальным flush WAL и подтверждением replay Standby/Mirror (полностью применено). Измеряет задержку фиксации при synchronous_commit, установленном в remote_apply |
миллисекунды (мс) | p3 | Рекомендуемый порог: 10 с Высокая задержка репликации может замедлить транзакции записи |
| Строки: вставка/обновление/удаление | Статистика операций со строками Rows Insert: Количество вставленных строк Rows Update: Количество обновлённых строк Rows Delete: Количество удалённых строк |
short | ||
| Буферы контрольной точки | buffers_checkpoint — Количество буферов, записанных во время контрольной точки buffers_clean — Количество буферов, записанных фоновым процессом buffers_backend — Количество буферов, записанных напрямую процессами бэкенда |
short | ||
| Топ-10 размеров задержки репликации | Топ-10 размеров WAL по задержке репликации | байты | p3 | 1 ГБ |
Этот раздел отображает статистику, связанную с хранилищем, включая:
| Метрика | Описание | Единица | Уровень | Рекомендуемый порог оповещения |
|---|---|---|---|---|
| Топ-10 баз данных | Топ-10 крупнейших баз данных по размеру | байты | ||
| Топ-10 пользователей | Топ-10 пользователей по объёму данных | байты | ||
| Топ-10 старых баз данных | Топ-10 баз данных по возрасту. Базы данных с возрастом более 2 миллиардов могут стать неработоспособными | short | p2 | 1500000000 |
| Топ-10 больших таблиц | Топ-10 крупнейших таблиц по размеру | байты | ||
| Топ-10 больших партиций | Топ-10 крупнейших партиций по размеру | байты | ||
| Топ-10 роста сегодня | Топ-10 таблиц с наибольшим ростом данных сегодня | байты | ||
| Топ-10 роста за последние 7 дней | Топ-10 таблиц с наибольшим ростом данных за последние 7 дней | байты |