netch: (Default)
[personal profile] netch
В качестве переклички с http://dbg.livejournal.com/45329.html:

Жил-был на edge раутере (с BGP fullview) redistribute map BGP->OSPF, прикрытый redistribute list'ом с deny any. В один сильно не прекрасный момент один из нокеров решил устранить лишнюю сущность в виде list'а.:) Тот из закрытого превратился в пустой и потому открытый.

Дежурный удивлённо наблюдал как NAS'ы (которые были от 2511 до 5300) по очереди пропадали из видимости.:) Половина кошек просто перезагрузилась. Другая половина осталась в ROMMON'е, и канальщикам до конца дня была работа ездить по площадкам дёргать anykey.

Date: 2006-10-29 10:49 am (UTC)
From: [identity profile] dbg.livejournal.com
Это вполне естественно иметь ЗиП не в отношении 1:1. Что касается усовывания двух супервизоров в один ящик, то это отдельный набор граблей. Как-нибудь соберусь написать.

Date: 2006-10-29 11:04 am (UTC)
From: [identity profile] furry.livejournal.com
Мое личное мнение, что резервировать надо коробками на L3 (ну или на L2), а 2 модуля в одно шасси - только в случае невозможности нормального резервирования (типа на access'e).

Date: 2006-10-29 11:06 am (UTC)
From: [identity profile] dbg.livejournal.com
Абсолютно полностью на сто процентов согласен.

Date: 2006-10-29 11:18 am (UTC)
From: [identity profile] furry.livejournal.com
Поразительно, что эту очевидную - как мне казалось - мысль приходится долго обосновывать..

Date: 2006-10-29 11:33 am (UTC)
From: [identity profile] furry.livejournal.com
Ну если говорить о конкретном вендоре ;) - то выход из строя супервизора парализует шасси. Поэтому я и говорю о двух железках. Ну, разумеется, все изначально зависит даже не от поведения шасси, а от требований к сети - если, как было у одного заказчика - "4 часа простоя - ничего страшного" - то можно и не заморачиваться двумя устройствами..
Кроме того, два супа в одном шасси не спасают нас от сбоев софта. Поскольку - опять-таки, говоря о конкретном вендоре A B C. - супервизор часто оказывается наиболее дорогой железкой в комплекте - то вариант 2-х устройств по цене отличается несильно, а стабильность его значительно выше.

Date: 2006-10-31 10:04 am (UTC)
From: [identity profile] iskatel.livejournal.com
Так-то оно так.. но пойди объясни это тем, кто решает, что и как покупать. ТАм нечасто понимают, что 2 76-х - это лучше, чем 2 720-х на одном шасси. Хотя бы потому, что 2 шасси можно разнести в 2 шкафа.

Date: 2006-10-29 11:52 am (UTC)
From: [identity profile] dbg.livejournal.com
Есть несколько факторов.

Single box redundancy в случае, например, SSO/NSF делает несколько не слишком очевидных предположений: 1) FIB остался жив и цел, поэтому соседи могут продолжать форвардить трафик на нас 2) второй супервизор (RPR, RSP, ну в общем то, что исполняет control plane) находится в достаточном здравии, чтобы отработать восстановление. Если что-то пошло не так, то будет потеря трафика через сбойный ящик составит минуты, пока соседи не отчаются и не плюнут на полусбойный роутер.

SSO/NSF не совместим с быстрыми таймерами. Надо чтобы второй супервизор обнаружил сбой первого и начал восстановление быстрее, чем это сделают соседи.

Да и вообще, весь этот graceful restart дело не самое быстрое. Плюс для каких-то протоколов этот graceful restart есть, а для каких-то нет, что тоже может приводить к неочевидным взаимодействиям.

Ну и к этом надо добавить, что взаимодействие двух control plane модулей в рамках одного ящика сложно, что само по себе повышает вероятность проблем.

В случае multiple box redundancy, мы хорошо понимаем, как именно будет происходить восстановление: как будет обнаружен сбой, как отреагирует на него протокол маршрутизации, в какой момент посыплются LSA, как будет пересчитан SPF, что будет происходить с FIB и т.д.

На сегодня, multiple box redundancy позволяет добиться лучшего времени сходимости, он хорошо понят сетевыми инженерам, его проще отлаживать. Есть, конечно, случаи, когда multiple box redundacy невозможен - например, это access. Вот там железкам с резервированным control plane и место.

Date: 2006-11-01 06:43 am (UTC)
From: [identity profile] furry.livejournal.com
А, ну и еще очень важный момент забыла - L3 сходится в общем случае быстрее и предсказуемее. Миллисекундная сходимость вполне достигаема. Перерыв в обслуживании при резервировании внутри коробки - штука хитрая и не столь очевидная

Date: 2006-10-29 11:33 am (UTC)
From: [identity profile] dbg.livejournal.com
"Любая сложная проблема имеет простое, понятное и неправильное решение". :)

Мол засунем два супервизора, и наш ящик будет жить вечно - что может быть проще?

Profile

netch: (Default)
netch

December 2023

S M T W T F S
     12
3456789
10111213141516
171819 20212223
24252627282930
31      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 2nd, 2026 10:56 am
Powered by Dreamwidth Studios