Veri Merkezi Ağ Tedarikçisi Arista Network, ağ ekipmanını ve iş yükleri AI ile ilişkili izlemeyi revize etti. Şimdi veri akışlarını eşit olarak dağıtmayı amaçlayan küme yükü (CLB) dengesini içerir. Buna ek olarak, CloudVision Universal Network Gözlenebilirlik İzleme Aracı (CV UNE), AI ağında uçtan uca görünürlük yaratmayı ve bu nedenle ilişkili ve potansiyel hata görüntüleri için agnostikleri etkinleştirmeyi amaçlamaktadır.
Küme yükünün dengelenmesi mızrakları azaltır
AI kümeleri genellikle AI eğitimi için ağda çok az veri akışı üretir, ancak bu da yüksek bir bant genişliğine sahiptir. Bu nedenle, yalnızca ağın şebeke seviyesinde hareket eden yükün dağılımı için geleneksel yöntemler, yapay zeka iş yükleri için genellikle verimsizdir ve düzensiz bir trafik dağılımına yol açar. Buna ek olarak, görevlerin sonucunu geciktiren bazı artan mızraklar ve paket kayıpları vardır.
CLB, doğrudan belleğe (RDMA) uzaktan veri erişiminin trafiği için bir agnostik yoluyla bu zamanı azaltmayı amaçlamaktadır. CLB ayrıca, özel ağı ile işleme birimi aracılığıyla eğitim yazılımının iletişim davranışını da etkiler. Özellikle, yükün çift yönlü verilerin akışı ile dağılımı, omurga yapraklarının bir mimarisinde, yani hem başak kolonundan yaprağa hem de ters yönde çalışır. Orada, CLB ilgili akışları tanımalı, tüm veri akışlarının eşit olarak dağıtıldığından ve aynı zamanda düşük gecikmeyi koruduğundan emin olmalıdır.
Her RDMA uç noktası, yapay zeka kümesindeki bir sunucu gibi, başka bir sunucuda bir çift uzak kuyrukla iletişim kuran en az birkaç kuyruk vardır. Bu çift bir şanzıman ve bir resepsiyon kuyruğundan oluşur ve CPU'nun katılımı olmadan belleğe doğrudan erişebilir. İşte bayanlar nasıl azaltılabilir. Şirkete göre, Oracle müşterisi yükleme dağıtım dergileri nedeniyle çarpışma verileri akışlarıyla ilgili sorunlardan ve otomatik öğrenme ağları aracılığıyla artıştan kaçındı.
İzleme aracı, veri akışındaki sorunları tanır
CV UNO gözetim platformuyla Arista, müşterilerine yapay zeka ağlarının tam bir vizyonu sunmak istiyor. Kullanıcılar yapay zeka çalışmasının koşullarını yeni izleme yoluyla görüntüleyebilir. Bu aynı zamanda işin tamamlanma süreleri, tampon/bağlantının kullanımını ve ECN markalı paketler, PFC duraklama çerçeveleri ve paket hataları gibi aşırı yük göstergelerini içerir.
Sözde derin dalış analizi, RDMA veya PCIE FA Valley hataları gibi Switch ve NIC sunucusu üzerinde çalışma için belirli kritik olayları tanıyabilmelidir. Ayrıca, performansın darboğazlarını görmek için hassasiyetle ilişkili akışları tanımlamalıdır. Buna ek olarak, işlev, mikrosaniyelerin ayrıntı düzeyine sahip yapay zeka iş süreçleri için bir akış gösterisine sahiptir. AI altyapı alanında, Nvidia ve Arista Cisco rakibi yakın zamanda işbirliğini genişletti.
(SFE)
Küme yükünün dengelenmesi mızrakları azaltır
AI kümeleri genellikle AI eğitimi için ağda çok az veri akışı üretir, ancak bu da yüksek bir bant genişliğine sahiptir. Bu nedenle, yalnızca ağın şebeke seviyesinde hareket eden yükün dağılımı için geleneksel yöntemler, yapay zeka iş yükleri için genellikle verimsizdir ve düzensiz bir trafik dağılımına yol açar. Buna ek olarak, görevlerin sonucunu geciktiren bazı artan mızraklar ve paket kayıpları vardır.
CLB, doğrudan belleğe (RDMA) uzaktan veri erişiminin trafiği için bir agnostik yoluyla bu zamanı azaltmayı amaçlamaktadır. CLB ayrıca, özel ağı ile işleme birimi aracılığıyla eğitim yazılımının iletişim davranışını da etkiler. Özellikle, yükün çift yönlü verilerin akışı ile dağılımı, omurga yapraklarının bir mimarisinde, yani hem başak kolonundan yaprağa hem de ters yönde çalışır. Orada, CLB ilgili akışları tanımalı, tüm veri akışlarının eşit olarak dağıtıldığından ve aynı zamanda düşük gecikmeyi koruduğundan emin olmalıdır.
Her RDMA uç noktası, yapay zeka kümesindeki bir sunucu gibi, başka bir sunucuda bir çift uzak kuyrukla iletişim kuran en az birkaç kuyruk vardır. Bu çift bir şanzıman ve bir resepsiyon kuyruğundan oluşur ve CPU'nun katılımı olmadan belleğe doğrudan erişebilir. İşte bayanlar nasıl azaltılabilir. Şirkete göre, Oracle müşterisi yükleme dağıtım dergileri nedeniyle çarpışma verileri akışlarıyla ilgili sorunlardan ve otomatik öğrenme ağları aracılığıyla artıştan kaçındı.
İzleme aracı, veri akışındaki sorunları tanır
CV UNO gözetim platformuyla Arista, müşterilerine yapay zeka ağlarının tam bir vizyonu sunmak istiyor. Kullanıcılar yapay zeka çalışmasının koşullarını yeni izleme yoluyla görüntüleyebilir. Bu aynı zamanda işin tamamlanma süreleri, tampon/bağlantının kullanımını ve ECN markalı paketler, PFC duraklama çerçeveleri ve paket hataları gibi aşırı yük göstergelerini içerir.
Sözde derin dalış analizi, RDMA veya PCIE FA Valley hataları gibi Switch ve NIC sunucusu üzerinde çalışma için belirli kritik olayları tanıyabilmelidir. Ayrıca, performansın darboğazlarını görmek için hassasiyetle ilişkili akışları tanımlamalıdır. Buna ek olarak, işlev, mikrosaniyelerin ayrıntı düzeyine sahip yapay zeka iş süreçleri için bir akış gösterisine sahiptir. AI altyapı alanında, Nvidia ve Arista Cisco rakibi yakın zamanda işbirliğini genişletti.
(SFE)