Блог bitmanager

Мониторинг мониторинга Zabbix

Случился у нас тут отказ входного сервера в ДЦ, через который весь трафик пропускается — свалился в kernel panic из-за сбоя на диске. А на нем завязано все, включая мониторинг его самого и наших клиентов. Единая точка отказа, ага. И ведь, что самое плохое — такое падение проходит абсолютное неопознаваемо. Не сиди я на сервере в тот момент — даже не дернулся бы. Вы же не проверяете постоянно все несколько десятков своих серверов, правда? Надеетесь на мониторинг? Вот и я тоже надеялся. И, как оказалось, зря.

А в обед, после успешного восстановления работы сервера, наткнулся на статью на Хабре, посвященную мониторингу. И там предлагалась такая идея – мониторить мониторинг. Мол, добавляем еще один контур мониторинга и спим спокойно. Если честно, мне такой подход не нравится по двум причинам:
  1. Невозможно определенно в каждый момент времени утверждать, что система мониторинга мониторинга работает. Она же поднимает тревогу только при падении основного мониторинга. И если основная система мне постоянно что-то да спамит и можно задергаться при слишком долгом ее спокойствии, то следящая за мониторингом система имеет только 1 триггер, который срабатывает примерно раз в полгода. То есть если следящая система умерла 5 месяцев назад, без ручной проверки мы никак об этом не узнаем.
  2. Вторая причина вытекает из первой: за системой мониторинга надо следить. Кому? Еще одной системе мониторинга? И тут мы впадаем в цикл, обкладываясь по самое не могу системами, которые следят друг за другом, и всегда есть та, за которой никто не смотрит, что сводит ценность системы к нулю.

Где тут выход? Пока не знаю. Против первой причины можно попробовать применить отправку следящего сообщения, например, раз в час, но это не то, чтобы выход: во-первых спам, на который очень скоро просто перестанешь реагировать, а, во-вторых, если сломается система слежения за мониторингом, то мы продолжим получать вводящий нас в заблуждение спам и от системы вместо пользы получится вред. В общем, проблема еще ждет своего решения.
Записки сисадмина