А в обед, после успешного восстановления работы сервера, наткнулся на статью на Хабре, посвященную мониторингу. И там предлагалась такая идея – мониторить мониторинг. Мол, добавляем еще один контур мониторинга и спим спокойно. Если честно, мне такой подход не нравится по двум причинам:
- Невозможно определенно в каждый момент времени утверждать, что система мониторинга мониторинга работает. Она же поднимает тревогу только при падении основного мониторинга. И если основная система мне постоянно что-то да спамит и можно задергаться при слишком долгом ее спокойствии, то следящая за мониторингом система имеет только 1 триггер, который срабатывает примерно раз в полгода. То есть если следящая система умерла 5 месяцев назад, без ручной проверки мы никак об этом не узнаем.
- Вторая причина вытекает из первой: за системой мониторинга надо следить. Кому? Еще одной системе мониторинга? И тут мы впадаем в цикл, обкладываясь по самое не могу системами, которые следят друг за другом, и всегда есть та, за которой никто не смотрит, что сводит ценность системы к нулю.
Где тут выход? Пока не знаю. Против первой причины можно попробовать применить отправку следящего сообщения, например, раз в час, но это не то, чтобы выход: во-первых спам, на который очень скоро просто перестанешь реагировать, а, во-вторых, если сломается система слежения за мониторингом, то мы продолжим получать вводящий нас в заблуждение спам и от системы вместо пользы получится вред. В общем, проблема еще ждет своего решения.