Блог bitmanager

AlertRules VS TICKScript

Сейчас гоняю в продакшене две системы мониторинга – InfluxDB и Prometheus. Так как обе работают в мониторинге сайтов, есть возможность сравнить их механизмы уведомления о неприятностях.

И, хочу я вам сказать,TICKScript в этом плане выглядит менее выигрышно. Начнем с того, что одно предупреждение – это довольно много писанины. То есть целый немелкий файл, особенно если у вас продвинутые шаблоны. А еще — скрипты бывают потоковые или с запросами, при загрузке скрипта это надо указывать. Знаете, что будет если ошибетесь? Kapacitor зависнет и придется его жестко убивать с kill -9. После каждого обновления скрипта его надо заново загружать в Kapacitor отдельной командой. В итоге, половина времени разработки предупреждений уходит на менеджмент скриптов. А уж если что-то надо поменять во всех скриптах… Да, групповых операций нет – страдайте.

С другой стороны AlertRules у Prometheus сама простота. Это просто запрос с критерием срабатывания и указанное время задержки. Не совсем логичное распределение alert-ов (сами правила привязываются к Prometheus и его конфигу, а AlertManager служит только для рассылки уведомлений), наверное, единственная условность, с которой придется столкнуться. И да, вы не ограничены тремя уровнями предупреждений, как в Kapacitor. Не обошлось, конечно, и без ложки дегтя. Надо понимать, что у Prometheus alert-ы – атомарные события, то есть если у вас упал сайт и стоит триггер на это с задержкой срабатывания раз в 5 минут, то будьте готовы к спаму в почту каждые пять минут.
Пока все говорит за то, что выбор будет сделан в сторону Prometheus. Посмотрим, что будет дальше.
Записки сисадмина