/isp/ кривые ручки и мелкие кошки
Oct. 29th, 2006 11:19 amВ качестве переклички с http://dbg.livejournal.com/45329.html:
Жил-был на edge раутере (с BGP fullview) redistribute map BGP->OSPF, прикрытый redistribute list'ом с deny any. В один сильно не прекрасный момент один из нокеров решил устранить лишнюю сущность в виде list'а.:) Тот из закрытого превратился в пустой и потому открытый.
Дежурный удивлённо наблюдал как NAS'ы (которые были от 2511 до 5300) по очереди пропадали из видимости.:) Половина кошек просто перезагрузилась. Другая половина осталась в ROMMON'е, и канальщикам до конца дня была работа ездить по площадкам дёргать anykey.
Жил-был на edge раутере (с BGP fullview) redistribute map BGP->OSPF, прикрытый redistribute list'ом с deny any. В один сильно не прекрасный момент один из нокеров решил устранить лишнюю сущность в виде list'а.:) Тот из закрытого превратился в пустой и потому открытый.
Дежурный удивлённо наблюдал как NAS'ы (которые были от 2511 до 5300) по очереди пропадали из видимости.:) Половина кошек просто перезагрузилась. Другая половина осталась в ROMMON'е, и канальщикам до конца дня была работа ездить по площадкам дёргать anykey.
no subject
Date: 2006-10-29 10:49 am (UTC)no subject
Date: 2006-10-29 11:04 am (UTC)no subject
Date: 2006-10-29 11:06 am (UTC)no subject
Date: 2006-10-29 11:18 am (UTC)no subject
Date: 2006-10-29 11:22 am (UTC)- относительная частота выхода из строя супервизора и шасси
- убивает ли вышедший из строя супервизор нормальную активность на шасси
Если супервизор выходит из строя чаще и не парализует шасси - ставить два супервизора вполне осмысленно. Если реже или парализует - надо ставить две разные железки.
Логично? Или я чего-то не учёл?
no subject
Date: 2006-10-29 11:33 am (UTC)Кроме того, два супа в одном шасси не спасают нас от сбоев софта. Поскольку - опять-таки, говоря о конкретном вендоре
A BC. - супервизор часто оказывается наиболее дорогой железкой в комплекте - то вариант 2-х устройств по цене отличается несильно, а стабильность его значительно выше.no subject
Date: 2006-10-31 10:04 am (UTC)no subject
Date: 2006-10-29 11:52 am (UTC)Single box redundancy в случае, например, SSO/NSF делает несколько не слишком очевидных предположений: 1) FIB остался жив и цел, поэтому соседи могут продолжать форвардить трафик на нас 2) второй супервизор (RPR, RSP, ну в общем то, что исполняет control plane) находится в достаточном здравии, чтобы отработать восстановление. Если что-то пошло не так, то будет потеря трафика через сбойный ящик составит минуты, пока соседи не отчаются и не плюнут на полусбойный роутер.
SSO/NSF не совместим с быстрыми таймерами. Надо чтобы второй супервизор обнаружил сбой первого и начал восстановление быстрее, чем это сделают соседи.
Да и вообще, весь этот graceful restart дело не самое быстрое. Плюс для каких-то протоколов этот graceful restart есть, а для каких-то нет, что тоже может приводить к неочевидным взаимодействиям.
Ну и к этом надо добавить, что взаимодействие двух control plane модулей в рамках одного ящика сложно, что само по себе повышает вероятность проблем.
В случае multiple box redundancy, мы хорошо понимаем, как именно будет происходить восстановление: как будет обнаружен сбой, как отреагирует на него протокол маршрутизации, в какой момент посыплются LSA, как будет пересчитан SPF, что будет происходить с FIB и т.д.
На сегодня, multiple box redundancy позволяет добиться лучшего времени сходимости, он хорошо понят сетевыми инженерам, его проще отлаживать. Есть, конечно, случаи, когда multiple box redundacy невозможен - например, это access. Вот там железкам с резервированным control plane и место.
no subject
Date: 2006-11-01 06:43 am (UTC)no subject
Date: 2006-10-29 11:33 am (UTC)Мол засунем два супервизора, и наш ящик будет жить вечно - что может быть проще?