Сам по себе протокол управляет динамической маршрутизацией и, если говорить грубо, определяет по какому каналу провайдеру отправить ваш пакет, чтобы он максимально быстро достиг цели. И вот поломки этого протокола приводят к тому, что сеть начинает вести себя странно, что и было продемонстрировано нам недавно.
От одного из клиентов внезапно стали приходить уведомления о недоступности группы узлов, которые наблюдались через пару прокси. Складывалось впечатление, что канал мерцает, то есть на канале серьезные потери и пакеты системы мониторинга не могут пробиться к серверу. Это создает впечатление постоянно падающих на 3-5 секунд серверов. Но при этом сам клиент на качество работы сети не жаловался, мониторинг больше нигде не страдал. Когда зашли на проблемные прокси, то увидели, что пинг до сервера мониторинга медленнее на 100мс чем обычно. При этом больше нигде такого не наблюдалось, только на этих двух машинах. При этом эти две машины пинговали все остальное с обычной скоростью, кроме хоста мониторинга.
Вот тут и появилось ощущение дежавю, я уже сталкивался с глюками динамической маршрутизации и примерно знал, как это выглядит. У молодых админов мозг ломается в попытках понять это странное поведение. Проверили трейсом, так и есть – скорость трейса на определенном хопе резко падает. Нигде больше этого не происходит. Отписались клиенту, сказали ждать разрешения проблем с маршрутизацией, а пока пустили мониторинг по резервному каналу в другом направлении и все сразу нормально заработало.