/isp/ кривые ручки и мелкие кошки
Oct. 29th, 2006 11:19 amВ качестве переклички с http://dbg.livejournal.com/45329.html:
Жил-был на edge раутере (с BGP fullview) redistribute map BGP->OSPF, прикрытый redistribute list'ом с deny any. В один сильно не прекрасный момент один из нокеров решил устранить лишнюю сущность в виде list'а.:) Тот из закрытого превратился в пустой и потому открытый.
Дежурный удивлённо наблюдал как NAS'ы (которые были от 2511 до 5300) по очереди пропадали из видимости.:) Половина кошек просто перезагрузилась. Другая половина осталась в ROMMON'е, и канальщикам до конца дня была работа ездить по площадкам дёргать anykey.
Жил-был на edge раутере (с BGP fullview) redistribute map BGP->OSPF, прикрытый redistribute list'ом с deny any. В один сильно не прекрасный момент один из нокеров решил устранить лишнюю сущность в виде list'а.:) Тот из закрытого превратился в пустой и потому открытый.
Дежурный удивлённо наблюдал как NAS'ы (которые были от 2511 до 5300) по очереди пропадали из видимости.:) Половина кошек просто перезагрузилась. Другая половина осталась в ROMMON'е, и канальщикам до конца дня была работа ездить по площадкам дёргать anykey.
no subject
Date: 2006-10-29 10:29 am (UTC)И 6500-я--еще тот кусок счастья--с одним набором модулей ей требуется катос на супервизоре и иос на MSFC, с другим--везде иос.
no subject
Date: 2006-10-29 10:49 am (UTC)6000-й у нас полностью IOS'изированный.
no subject
Date: 2006-10-29 10:49 am (UTC)no subject
Date: 2006-10-29 11:04 am (UTC)no subject
Date: 2006-10-29 11:06 am (UTC)no subject
Date: 2006-10-29 11:18 am (UTC)no subject
Date: 2006-10-29 11:22 am (UTC)- относительная частота выхода из строя супервизора и шасси
- убивает ли вышедший из строя супервизор нормальную активность на шасси
Если супервизор выходит из строя чаще и не парализует шасси - ставить два супервизора вполне осмысленно. Если реже или парализует - надо ставить две разные железки.
Логично? Или я чего-то не учёл?
no subject
Date: 2006-10-29 11:33 am (UTC)Кроме того, два супа в одном шасси не спасают нас от сбоев софта. Поскольку - опять-таки, говоря о конкретном вендоре
A BC. - супервизор часто оказывается наиболее дорогой железкой в комплекте - то вариант 2-х устройств по цене отличается несильно, а стабильность его значительно выше.no subject
Date: 2006-10-31 10:04 am (UTC)no subject
Date: 2006-10-29 11:52 am (UTC)Single box redundancy в случае, например, SSO/NSF делает несколько не слишком очевидных предположений: 1) FIB остался жив и цел, поэтому соседи могут продолжать форвардить трафик на нас 2) второй супервизор (RPR, RSP, ну в общем то, что исполняет control plane) находится в достаточном здравии, чтобы отработать восстановление. Если что-то пошло не так, то будет потеря трафика через сбойный ящик составит минуты, пока соседи не отчаются и не плюнут на полусбойный роутер.
SSO/NSF не совместим с быстрыми таймерами. Надо чтобы второй супервизор обнаружил сбой первого и начал восстановление быстрее, чем это сделают соседи.
Да и вообще, весь этот graceful restart дело не самое быстрое. Плюс для каких-то протоколов этот graceful restart есть, а для каких-то нет, что тоже может приводить к неочевидным взаимодействиям.
Ну и к этом надо добавить, что взаимодействие двух control plane модулей в рамках одного ящика сложно, что само по себе повышает вероятность проблем.
В случае multiple box redundancy, мы хорошо понимаем, как именно будет происходить восстановление: как будет обнаружен сбой, как отреагирует на него протокол маршрутизации, в какой момент посыплются LSA, как будет пересчитан SPF, что будет происходить с FIB и т.д.
На сегодня, multiple box redundancy позволяет добиться лучшего времени сходимости, он хорошо понят сетевыми инженерам, его проще отлаживать. Есть, конечно, случаи, когда multiple box redundacy невозможен - например, это access. Вот там железкам с резервированным control plane и место.
no subject
Date: 2006-11-01 06:43 am (UTC)no subject
Date: 2006-10-29 11:33 am (UTC)Мол засунем два супервизора, и наш ящик будет жить вечно - что может быть проще?
no subject
Date: 2006-10-29 11:07 am (UTC)no subject
Date: 2006-10-29 11:09 am (UTC)no subject
Date: 2006-10-29 11:15 am (UTC)no subject
Date: 2011-08-24 11:14 am (UTC)no subject
Date: 2006-10-29 11:14 am (UTC)Пусть у нас есть конфиг вида
router ospf 1
redistribute bgp 1 subnets route-map bgp2ospf
Что делает человек, который желает убрать редистрибуцию? Правильно, берет всю строчку redistribute, приписывает ей в начало no, и аккуратно пейстит ее в роутеру. Сети становится очень плохо. Почему? А потому, что в конфиге остается следующее:
router ospf 1
redistribute bgp 1
Конечно, в этом случае в OSPF прилетают только сети с natural mask, но и этого хватает, чтобы испортить настроение.
Причем, это не баг, это фича. Правильный способ убирать редистрибуцию - это писать просто no redistribute bgp 1.
no subject
Date: 2006-10-29 11:20 am (UTC)