Блог bitmanager

Причуды маршрутизации BGP

Из всех протоколов маршрутизации BGP один из тех, что порождает у админов священный трепет. По слухам, в таблицах BGP содержится весь интернет и роутер для обслуживания AS (автономной системы) должен быть мощным. А еще этот протокол может становиться причиной странных сетевых глюков.

Сам по себе протокол управляет динамической маршрутизацией и, если говорить грубо, определяет по какому каналу провайдеру отправить ваш пакет, чтобы он максимально быстро достиг цели. И вот поломки этого протокола приводят к тому, что сеть начинает вести себя странно, что и было продемонстрировано нам недавно.

От одного из клиентов внезапно стали приходить уведомления о недоступности группы узлов, которые наблюдались через пару прокси. Складывалось впечатление, что канал мерцает, то есть на канале серьезные потери и пакеты системы мониторинга не могут пробиться к серверу. Это создает впечатление постоянно падающих на 3-5 секунд серверов. Но при этом сам клиент на качество работы сети не жаловался, мониторинг больше нигде не страдал. Когда зашли на проблемные прокси, то увидели, что пинг до сервера мониторинга медленнее на 100мс чем обычно. При этом больше нигде такого не наблюдалось, только на этих двух машинах. При этом эти две машины пинговали все остальное с обычной скоростью, кроме хоста мониторинга.

Вот тут и появилось ощущение дежавю, я уже сталкивался с глюками динамической маршрутизации и примерно знал, как это выглядит. У молодых админов мозг ломается в попытках понять это странное поведение. Проверили трейсом, так и есть – скорость трейса на определенном хопе резко падает. Нигде больше этого не происходит. Отписались клиенту, сказали ждать разрешения проблем с маршрутизацией, а пока пустили мониторинг по резервному каналу в другом направлении и все сразу нормально заработало.
Записки сисадмина