Интерпретация метрик мониторинга Grafana

Этот документ описывает метрики, связанные с YMatrix, на дашборде мониторинга Grafana, а также предоставляет рекомендуемые пороги для оповещений.

Описание уровней оповещений

  • p0: Требует немедленных действий; кластер недоступен.
  • p1: Требует оперативных действий; при отсутствии реагирования может повлиять на работу кластера.
  • p2: Требует внимания; при длительном игнорировании может повлиять на производительность кластера.
  • p3: Не влияет на работу кластера; настройка оповещений по необходимости.

Примечание!
Для метрик без указанных порогов оповещений рекомендуется определить и настроить условия оповещения на основе реальных условий эксплуатации.

1 База данных YMatrix

1.1 Обзор

Этот раздел отображает общее состояние работы кластера, включая:

Метрика Описание Единица Уровень Рекомендуемый порог оповещения
Статус кластера Статус узлов кластера:
0: Нормальный
1: Нет резервного узла
2: Нет зеркала
10: Несбалансированные данные (после восстановления узла роли основной/зеркальной не были перераспределены)
11: Несинхронизированные узлы (некоторые зеркальные узлы не синхронизированы с основными)
12: Только мастер (работает только мастер-узел, обычно используется при диагностике)
20: Сегмент недоступен (существуют недоступные сегменты; кластер неработоспособен)
short p0 20: Сегмент недоступен — критическое событие; требуется оповещение
uptime Время работы. Включает время работы YMatrix с момента запуска и время работы операционной системы хоста мастера секунды (с)
Версия Версия YMatrix
Статус подключений Статистика подключений в системе базы данных: общее количество подключений (Total), заблокированные запросы (Blocked), неактивные подключения (Idle), неактивные в транзакции (Idle in TXN) short
Долгие запросы Долгие выполняющиеся запросы. Количество запросов, выполняющихся более 1 дня short p3 Оповещать, если значение больше 0 — указывает на крайне медленные запросы
Статус узлов Статус каждого узла:
0: В работе (нормальный)
10: Смена роли (произошла смена роли; требуется перебалансировка)
11: Синхронизация (синхронизация между основным и зеркальным узлом)
20: Не в работе (узел недоступен)
short Оповещать при значениях 11 и 20
license_expire_date Оставшееся время до истечения срока действия лицензии секунды (с) p3/p2 Истечение срока может привести к сбоям компонентов; требуется оперативное решение; оповещать при оставшемся сроке 30–15 дней
Используемое дисковое пространство Использование диска на экземплярах мастера или сегмента 0-1 Рекомендуется настраивать оповещения напрямую в node_exporter
Доступно Свободное дисковое пространство на экземплярах мастера или сегмента 0-1 Рекомендуется настраивать оповещения напрямую в node_exporter
CPU Использование CPU хоста 0-1
Память Информация об использовании памяти 0-1
Нагрузка Нагрузка хоста short
Транзакции Статистика фиксации и отката транзакций short Можно задать порог для откатов
DiskIO Объем данных, записанных на диск байты
Сеть Объем сетевого трафика байты
Процессы Количество процессов в различных состояниях short

1.2 Производительность диска

Метрика Описание Единица Уровень Рекомендуемый порог оповещения
Топ-10 дисков по загрузке Топ-10 дисков по уровню загрузки 0-1 Рекомендуется настраивать в node_exporter
Пропускная способность диска Пропускная способность диска байты Рекомендуется настраивать в node_exporter
IOPS диска Операции чтения/записи диска (синий — чтение, оранжевый — запись, абсолютные значения) I/O операций/сек Рекомендуется настраивать в node_exporter

1.3 Производительность сети

Метрика Описание Единица Уровень Рекомендуемый порог оповещения
NetStat Состояние сети short Рекомендуется настраивать в node_exporter
Пропускная способность сети Пропускная способность сети (синий — приём, оранжевый — передача, абсолютные значения) байты Рекомендуется настраивать в node_exporter
Сетевой ввод-вывод Операции сетевого ввода-вывода (зелёный — приём, жёлтый — передача, абсолютные значения) io/сек Рекомендуется настраивать в node_exporter
Потерянные пакеты/сек Количество пакетов, отброшенных из-за нехватки буферов ядра short p3 Рекомендуется настраивать в node_exporter
Ошибки пакетов/сек Количество неудачных операций отправки/приёма пакетов пакетов/сек Рекомендуется настраивать в node_exporter

1.4 Производительность системы

Метрика Описание Единица Уровень Рекомендуемый порог оповещения
IO TPS Общее количество физических операций диска в секунду. Одна операция — это запрос ввода-вывода к физическому устройству. Несколько логических запросов могут быть объединены в один запрос устройства. Объём данных на операцию не фиксирован iops
Переключения контекста/сек Количество переключений контекста ядра в секунду (максимум и среднее по хостам) short
Память Использовано — процент используемой памяти
Buff/Cache — процент памяти, используемой для буферов и кеша
0-1
Статистика страниц PageIn/s — Общий объём страниц, считываемых с диска в секунду
PageOut/s — Общий объём страниц, записываемых на диск в секунду
Примечание: В ядрах версий 2.2.x и ранее это значение представляет количество страниц, а не общий объём
КБ
Пропускная способность ввода-вывода Read — Количество блоков, считываемых с диска в секунду
Write — Количество блоков, записываемых на диск в секунду
В ядре 2.4 и выше один блок равен сектору (512 байт). Размер блока варьируется в более ранних ядрах
iops
Процессы, созданные/сек Количество созданных процессов в секунду short
Выделенная память Использование памяти при текущей нагрузке. Это значение может превышать 100% из-за переоценки памяти ядром 0-1 p3/p2 Оповещать при 60%–80%; если OOM-защита не настроена, процессы могут быть убиты OOM-killer'ом
Ошибки страниц fault/s — Количество ошибок страниц в секунду. Ошибки страниц не всегда вызывают ввод-вывод, так как некоторые могут быть разрешены без доступа к диску
majflt/s — Крупные ошибки страниц, требующие загрузки страниц с диска
short
Дескрипторы файлов Количество используемых дескрипторов файлов системой short
Прерывания/сек Количество прерываний в секунду short
Статистика памяти frmpg/s — Количество освобождаемых страниц памяти в секунду (отрицательные значения — выделение страниц)
bufpg/s — Дополнительные страницы, используемые для буферов в секунду (отрицательные значения — меньше страниц используется)
campg/s — Дополнительные страницы, добавляемые в кеш в секунду (отрицательные значения — меньше кеширования)
Примечание: Размер страницы может составлять 4 КБ или 8 КБ в зависимости от архитектуры
страницы
Активность свопа Количество страниц, перемещаемых в своп/из свопа в секунду страницы
Нагрузка Load1 — Средняя нагрузка системы за 1 минуту. Представляет среднее количество задач в состоянии выполнения, запущенных или в непрерываемом сне
Load5 — Средняя нагрузка за 5 минут
Load15 — Средняя нагрузка за 15 минут
short p3/p2 Количество ядер CPU × 3 / Количество ядер CPU × 5
Очередь выполнения Длина очереди выполнения (количество задач, ожидающих запуска). Фиолетовый показывает максимум по всем хостам, Зелёный — среднее short
Использование Hugepage Использование памяти Hugepage 0-1
%vmeff Отношение количества освобождённых страниц к количеству просканированных. Более высокое значение означает, что большинство просканированных страниц освобождаются. 100% означает, что каждая просканированная страница освобождается. Низкое значение (<30%) указывает на трудности с освобождением памяти. 0 означает, что страницы не сканировались. Идеальные значения — 0 или 100% 0-1
iNodes Количество используемых дескрипторов i-node системой short p3
Псевдотерминалы Количество используемых псевдотерминалов системой short
Неиспользуемые записи кеша Количество неиспользуемых записей в кеше каталогов (розовый — минимум по хостам, жёлтый — среднее) short
Доступная энтропия Система собирает «истинную» случайность из различных событий (например, сетевая активность, аппаратные генераторы случайных чисел) и передаёт её в пул энтропии ядра, используемый /dev/random. Приложения с высокими требованиями к безопасности часто используют /dev/random в качестве источника энтропии. Если /dev/random исчерпывает энтропию, он блокируется до появления новой случайности, что может остановить зависящие от него приложения short

2 База данных YMatrix

Интерфейс базы данных YMatrix включает два раздела: Производительность базы данных и Хранилище.

2.1 Производительность базы данных

Этот раздел отображает метрики производительности базы данных, включая:

Метрика Описание Единица Уровень Рекомендуемый порог оповещения
Коэффициент попаданий в кеш Отношение операций чтения таблиц HEAP, попавших в блочный кеш, к общему числу операций чтения. (Кеш включает только внутренний кеш таблиц HEAP, а не кеш ОС.)
Отображаемое значение — текущее; кривая показывает исторические данные
Обычно должно быть выше 90%
0-1
Размер временных файлов Общий объём данных, записанных во временные файлы запросами. Все временные файлы учитываются независимо от причины их создания или настройки log_temp_files байты
Сессии на базу данных Количество сессий на каждую базу данных short p2/p1 Оповещать при 60% и 80% от максимального числа подключений
Активности Количество сессий в различных состояниях short
Взаимоблокировки Количество обнаруженных взаимоблокировок short Оповещать, если значение больше 0
Ошибки контрольных сумм Количество ошибок контрольных сумм страниц базы данных. NULL, если не включено short p3
Прочитанные строки Количество прочитанных строк данных short
Контрольные точки Статистика контрольных точек.Оранжевый — контрольные точки, инициированные явными запросами, Зелёный — автоматические контрольные точки по таймауту short
Попадания в кеш страниц blks_hit — Количество попаданий в кеш при чтении страниц данных
blks_read — Количество чтений с диска из-за промахов кеша
Задержка репликации write_lag — Время между локальным flush WAL и подтверждением получения Standby/Mirror (но ещё не flush или применением). При настройке Standby/Mirror измеряет задержку фиксации при synchronous_commit, установленном в remote_write
flush_lag — Время между локальным flush WAL и подтверждением flush Standby/Mirror (но ещё не применением). Измеряет задержку фиксации при synchronous_commit, установленном в on
replay_lag — Время между локальным flush WAL и подтверждением replay Standby/Mirror (полностью применено). Измеряет задержку фиксации при synchronous_commit, установленном в remote_apply
миллисекунды (мс) p3 Рекомендуемый порог: 10 с
Высокая задержка репликации может замедлить транзакции записи
Строки: вставка/обновление/удаление Статистика операций со строками
Rows Insert: Количество вставленных строк
Rows Update: Количество обновлённых строк
Rows Delete: Количество удалённых строк
short
Буферы контрольной точки buffers_checkpoint — Количество буферов, записанных во время контрольной точки
buffers_clean — Количество буферов, записанных фоновым процессом
buffers_backend — Количество буферов, записанных напрямую процессами бэкенда
short
Топ-10 размеров задержки репликации Топ-10 размеров WAL по задержке репликации байты p3 1 ГБ

2.2 Хранилище

Этот раздел отображает статистику, связанную с хранилищем, включая:

Метрика Описание Единица Уровень Рекомендуемый порог оповещения
Топ-10 баз данных Топ-10 крупнейших баз данных по размеру байты
Топ-10 пользователей Топ-10 пользователей по объёму данных байты
Топ-10 старых баз данных Топ-10 баз данных по возрасту. Базы данных с возрастом более 2 миллиардов могут стать неработоспособными short p2 1500000000
Топ-10 больших таблиц Топ-10 крупнейших таблиц по размеру байты
Топ-10 больших партиций Топ-10 крупнейших партиций по размеру байты
Топ-10 роста сегодня Топ-10 таблиц с наибольшим ростом данных сегодня байты
Топ-10 роста за последние 7 дней Топ-10 таблиц с наибольшим ростом данных за последние 7 дней байты