Analiz: Microsoft, Teams, Office ve Co.’nun iflasıyla ilgili ilk ayrıntıları sağlar.

Adanali

Member


  1. Analiz: Microsoft, Teams, Office ve Co.’nun iflasıyla ilgili ilk ayrıntıları sağlar.

Microsoft, bulut tabanlı hizmetlerinin başarısızlığının nedenleri hakkında bilgi yayınladı. Microsoft’un Azure Cloud’unda yaşanan bir kesinti nedeniyle 25 Ocak Çarşamba sabahı çok sayıda kullanıcı bu platformda barındırılan uygulama ve hizmetlere erişemedi. Bunlar, popüler işbirliği aracı Teams’i içeriyordu, ancak Outlook, Word, Excel gibi diğer Microsoft 365 uygulamaları da bulut tabanlı varyantlarında başarısız oldu.


Ne oldu?


Çarşamba günü 08:05 ile 13:43 GMT arasında müşteriler, Azure bulut kaynaklarına erişirken yüksek gecikme süresi, paket kaybı ve zaman aşımlarına neden olan bağlantı sorunları yaşadı. Kesinti gününde Microsoft, kesintinin nedeni olarak başlangıçta yalnızca bir ağ değişikliğini gösterdi. Bunu düzeltmek için geri alındı. Microsoft’tan bir ön çökme sonrası raporu artık daha fazla ayrıntı sağlıyor.

Bunun nedeni, bir WAN yönlendiricisinde planlanmış bir değişiklikti. Redmond üreticisinden gelen bilgilere göre router üzerindeki bir IP adresinin değişmiş olması gerekiyordu. Bunun için yönlendiriciye gönderilen komut, WAN’daki tüm yönlendiricilere mesajlar gönderilmesiyle sonuçlandı. Bu, kontrol düzleminde yönlendirme bilgilerinin (bitişiklik ve yönlendirme tabloları) yeniden hesaplanmasına yol açtı. Microsoft, bunların normal BGP güncellemeleri olup olmadığından bahsetmiyor. Bu yeniden hesaplama sırasında, yönlendiriciler aktarım halindeki paketleri düzgün bir şekilde iletemedi. Ön rapor, bunun sadece bir yük sorunu mu yoksa kötü bir yönlendirme mi olduğunu henüz ortaya koymuyor.

Kalite kontrol eksikliğinden kaynaklanan hata, örnek yanıt


Soruna neden olan komutun kökü, farklı yönlendiricilerde farklı davranır. Klasik bir ağ otomasyonu QA hatası olan, üzerinde çalıştığı yönlendirici platformundaki tüm kalifikasyon sürecinde başarısız olmuştu. Ancak, yalnızca istemciler ve Azure arasındaki kuzey/güney trafiği değil, aynı zamanda Azure bölgeleri ve ExpressRoute aracılığıyla bağlantılar arasındaki bağlantı da etkilendi.

Ancak, şirketin yanıtı örnek oldu. Microsoft, DNS ve WAN hatalarını arızadan yalnızca yedi dakika sonra fark etti ve daha önce yapılan değişiklikleri gözden geçirdi. Başladıktan yaklaşık bir saat sonra, ağ üzerinden otomatik bir kurtarma işlemi başladı. Son ağ bileşeni, 10:35’te işlevine devam etti. Bununla birlikte, WAN arızası nedeniyle, arızalı ağ bileşenlerinin izlenmesi ve otomatik olarak devre dışı bırakılması için otomasyon sistemleri de devre dışı kaldı. Sonuç olarak, paketler 13:43’e kadar kayboldu. Birçok yönlendirici, “Önyükleme iyi hissettiriyor” sloganına sadık kalarak, hala manuel olarak yeniden başlatma gerektiriyordu.


Sonuç: takip eylemi


Hatalar olabilir. Ama bundan ders çıkarmalısın. Microsoft, başlangıçta büyük etkisi olan komutları engelledi ve tüm yürütmeleri “güvenli değişiklik yönergelerine” tabi tuttu. Nihai olay incelemesi, olaydan sonraki on dört gün içinde yayınlanmalıdır.



iX Magazine'den daha fazlası



iX Magazine'den daha fazlası




(jvo)



Haberin Sonu
 
Üst