Öyle değil: Bir ağ operatörü kendisini nasıl tamamen iflasa sürükledi?

Adanali

Member
Rogers Networks'te tam bir başarısızlık: 8 Temmuz 2022 sabahı, Kanada telekomünikasyon pazarı liderinin on iki milyon müşterisi aniden çevrimdışı, mobil ve sabit hat kullanıcısı oldu. 26 saat boyunca telefon görüşmesi yapamayacak, veri aktaramayacak ve hatta acil arama yapamayacaklar. Kasalar grevde olduğu için dükkanlar hiçbir şey satamıyor. ATM'ler ve banka havale sistemleri hizmet dışıdır. Kanada ekonomisine verilen zarar milyarlarca doları buluyor. Soruşturma talimatı veren Kanada hükümetinde alarm zilleri çalıyor.


Duyuru



İki yıl sonra, devlet kurumu CRTC (Kanada Radyo-televizyon ve Telekomünikasyon Komisyonu), telekomünikasyon danışmanlığı şirketi Xona Partners tarafından hazırlanan bir raporun özetini yayınladı. (Tam sürüm şu anda ticari sırlardan temizleniyor ve Haberler yetkilisi tarafından çevrimiçi olarak duyurulduğu üzere daha sonra yayınlanacak.) Belge üç yaraya parmak basıyor: dayanıklılık, değişim yönetimi ve kriz yönetimi. Uzman hayrete düşüyor, meslekten olmayan hayret ediyor.

Teknik açıdan konuşursak, tam bir başarısızlığın ön koşulu, Rogers'ın sabit hat, İnternet ve mobil iletişim için birleşik bir IP ağına sahip olmasıydı; bu, verileri kendi sistemleri içinde yönlendirmek, diğer operatörlerin ağlarıyla veri alışverişi yapmak ve genel İnternet'e bağlantı için gerekliydi. . Mobil ve sabit ağlar için tek tip (“birleşik”) çekirdek ağlar, verimli ve uygun maliyetli olduklarından ancak tek bir arıza noktasını temsil ettiklerinden endüstri standartlarıdır. Bu nedenle çekirdek ağın çöküşü, Kanada pazar liderinin tüm telekomünikasyon hizmetlerinin eşzamanlı olarak çökmesine neden oldu.

8 Temmuz 2022'ye yaklaşan haftalarda Rogers, çekirdek IP ağının yedi aşamalı yükseltmesi üzerinde çalışıyordu. Ağ teknisyenleri de ilk beş aşamayı tamamladı. Ancak kullanıcılar (erişim katmanı) ile çekirdek ağ arasındaki trafiği yöneten yönlendiricilerin (dağıtım yönlendiricileri) yükseltilmesi olan 6. aşamanın 8 Temmuz'da tamamlanması gerekiyordu. Dağıtım yönlendiricisinin görevlerinden biri, önceden tanımlanmış kurallara (erişim kontrol listesi) dayanarak hangi verinin nasıl iletileceğine karar vermektir.

Büyük günahlar


Yükseltme sırasında Rogers büyük bir hata yaptı: erişim kontrol listeleri basitçe silindi. Dağıtım yönlendiricileri daha sonra sınırsız veri paketi işleme talimatlarını (IP yönlendirme verileri) çekirdek ağ yönlendiricilerine iletir. Burada yönlendiricileri aşırı yüklenmeden korumak için bir miktar sınırı belirlenir: Yönlendiriciler, miktarı işleyemeyecek kadar çok veri paketini bombardıman ederse, veri paketlerini atmak zorunda kalırlar. Ne yazık ki Rogers Networks'te bu miktar sınırı yoktu. Çekirdek ağdaki yönlendiriciler, yönlendiricilere çok fazla yönlendirme verisi göndermemek için dağıtıma güveniyordu. Ancak çekirdek ağa çığ düştüğünde, yönlendiriciler sadece birkaç dakika sonra yük altında çöktü.

Her şey hareketsizdi.

ACL'leri temizlemek, dağıtım yönlendiricilerinin yapılandırmasını temizlemeye yönelik iyi niyetli ancak tavsiye edilmeyen bir girişimdi. Raporda, “Değiştirilecek parametrelerin önceden incelenmesini içeren değişiklik yönetimi, bu hatayı tespit edemedi” belirtiliyor.

Hazırlık aşamasında Rogers, yedi aşamalı çekirdek ağ yükseltmesini yüksek riskli bir girişim olarak sınıflandırdı. Her aşamadan sonra her şey yolunda gitti, risk değerlendirme algoritması altıncı aşamaya “düşük risk” notu verdi. Çalışanların özel bir dikkat göstermesi gerekmiyordu; Üretime geçmeden önce yönetimin daha üst düzeylerinden onay almasına veya değişiklikleri laboratuvar testlerine tabi tutmasına gerek yoktu.

Artık çocuk kuyuya düşmüştü ve cesur ağ teknisyenleri onu hemen çıkarmak zorunda kaldı. Bazı çalışanların yönlendiricilere erişmesine, bunların bakımını yapmasına, hataları tespit edip düzeltmesine ve gerekirse cihazları yeniden başlatmasına olanak tanıyan ayrı bir ağ olan bir bakım ağı (yönetim ağı) vardır. Özellikle gerçek trafikten sorumlu ağ çalışmadığında bile.

Öyle düşünülebilir. Rogers Yönetim Ağı aynı zamanda IP çekirdek ağına dayanmak üzere oluşturulmuştur. Bu, ağ mühendislerinin kilitli yönlendiricilere dışarıdan erişemeyeceği anlamına geliyordu. Aynı zamanda harici veri hatları üzerinden yedekli bağlantı da yoktu. Rogers tamamen kendi hatlarına güveniyordu, bu da hizmete dönüşü önemli ölçüde geciktirdi çünkü çalışanların yönlendiricilere bizzat gitmesi gerekiyordu.

SIM sorunu


İlk başta ne olduğunu ve nedenini bilmiyorlardı çünkü Roger'ın cep telefonu şebekesi çalışmıyordu. En büyük başarı ise, önemli çalışanların acil durumlarda birbirleriyle iletişim kurabilmeleri için ceplerinde diğer ağ operatörlerine ait SIM kartlarının bulunmamasıydı. Bu tür önlemler yalnızca telekomünikasyon sektöründe değil, kritik altyapı sektörlerinde de onlarca yıldır yaygın olarak kullanılıyor. Ancak Rogers'ta öncelikle kriz yönetimi ve hasar onarımından sorumlu çalışanlara SIM kartlı haberciler göndermek gerekiyordu. Bu daha değerli zamanımızı aldı.

Sonuçları korkunçtu. Ağ mühendisleri 14 (on dört) saat boyunca log dosyalarına erişemedi. Bu nedenle ağın çökmesinin ana nedenini belirleyemediler. Daha da kötüsü, o gün birkaç konfigürasyon değişikliği meydana geldi. Başlangıçta çöküşe neyin sebep olduğu belli değildi. Seçim başlangıçta aslında sorumlu olmayan bir değişikliğe bağlıydı. Sonuç olarak, bu masum değişikliği tersine çevirmenin bir faydası olmadı. Değerli zamanımız bir kez daha boşa gitti. Çalışanlar ancak asıl hata keşfedildiğinde akış planlarını doğru bir şekilde oluşturabildiler ve ağı yeniden çalışır duruma getirebildiler.



Bu arada radyo ağı etkilenmedi. Rogers müşterilerinin cep telefonlarının yayını normaldi, ancak ana şebekenin olmaması nedeniyle iletim çalışmadığı için bu konuda hiçbir şey yapamadılar. Kısa mesajlar, telefon çağrıları, veriler; hiçbir şey işe yaramadı. Cep telefonu vericileri artık işe yaramayan sinyallerini neşeyle yayınlıyor.

Ne yazık ki bu kümelenmenin olumsuz bir yan etkisi var: Uç cihazlar sinyali Rogers ağından aldığı için diğer mobil ağlara kaydolmayı bile denemediler. Orada normal aramalar yapamayacaklar veya veri aktaramayacaklardı, ancak en azından yabancı ağlar üzerinden acil aramalar mümkün olacaktı. Müşterilerin acil arama yapabilmek için SIM kartlarını çıkarmaları veya e-SIM'lerini devre dışı bırakmaları gerekecek; ancak bunu yalnızca çok az tüketici biliyor.
 
Üst