Makine öğrenimi, Amazon Web Services'in (AWS) yıllık şirket içi re:Invent ticari fuarında, yeni donanım söz konusu olduğunda bile dikkat çekici bir şekilde öne çıktı. Odak noktası, Trainium2 çiplerini ve şu anda mevcut olan EC2 bulut sunucularını temel alan EC2 UltraServer'lar üzerindeydi. AWS'ye göre yeni Trn2 bulut sunucuları, bulut sunucusu başına 20,8 petaflop bilgi işlem gücü ve GPU tabanlı EC2-P5 bulut sunucularına kıyasla %40'a kadar daha iyi fiyat-performans sunuyor.
Duyuru
Bir Trn2 UltraServer, bir NeuronLink bağlantısı aracılığıyla birbirine bağlanan dört Trn2 örneğinden oluşur. Bu mimari, dünyanın en büyük yapay zeka modelleri için eğitim ve çıkarım sürelerini azaltmak amacıyla bilgi işlem gücünün 83,2 petaflop'a kadar çıkarılmasını sağlamayı amaçlamaktadır. Trilyonlara kadar parametre içeren modeller, geliştirilmiş gecikme süresiyle işlenebilir.
Yapay zeka kümeleri için “Proje Rainier”
AWS ayrıca yüzlerce Trainium2 UltraServer'ı bir EC2 UltraCluster'da birleştirerek mevcut çözümlere göre küme boyutunda artış sağlayan “Project Rainier”ı da duyurdu. Bu UltraClusters, Anthropic gibi kuruluşlarda yapay zeka modellerini eğitmek için kullanılır. Anthropic bunları Trainium2'deki Amazon Bedrock için Claude modellerini optimize etmek amacıyla kullanıyor. Bu altyapı, müşterilerin trilyonlarca parametreye sahip modelleri verimli bir şekilde eğitmesine ve bunları gerçek zamanlı olarak çalıştırmasına olanak sağlamalıdır.
AWS, kümelerin boyutunu artırmanın performansı artırmak için yeterli olmadığını vurguladı. Bunun yerine yeni Trainium2 UltraServer mimarisi veri dağıtımını ve kaynak tahsisini iyileştirir. Bu, geleneksel ağ oluşturmanın sınırlamalarıyla karşılaşmadan genel eğitim süresini azaltır.
Nvidia Blackwell ve Outlook ile yeni vakalar
AWS, Trainium2 çözümlerine ek olarak EC2 P6 bulut sunucularını da kullanıma sundu. Nvidia'nın yeni nesil Blackwell GPU'sunu temel alıyorlar. Mevcut nesille karşılaştırıldığında AWS, bilgi işlem yoğunluklu üretken yapay zeka uygulamaları için 2,5 kata kadar daha yüksek performans ve özel optimizasyon vaat ediyor. AWS, P6 bulut sunucularını öncelikle hızlı yanıt süreleri ve yüksek ölçeklenebilirlik gerektiren uygulamalarda görüyor.
AWS ayrıca Trainium2'nin halefi olarak yakında çıkacak olan Trainium3 çipini de duyurdu. Bu, 3 nanometrelik bir işlem kullanılarak üretilmiştir. Önceki modelle karşılaştırıldığında enerji açısından daha verimli ve dört kat daha güçlü olduğu söyleniyor. Bu, müşterilerin kalıpları daha hızlı yinelemelerine ve bunları gerçek zamanlı olarak kullanmalarına olanak tanıyacak. Trainium3'ün sonraki UltraServer sürümlerinde mevcut olması bekleniyor.
(yardımcı)
Duyuru
Bir Trn2 UltraServer, bir NeuronLink bağlantısı aracılığıyla birbirine bağlanan dört Trn2 örneğinden oluşur. Bu mimari, dünyanın en büyük yapay zeka modelleri için eğitim ve çıkarım sürelerini azaltmak amacıyla bilgi işlem gücünün 83,2 petaflop'a kadar çıkarılmasını sağlamayı amaçlamaktadır. Trilyonlara kadar parametre içeren modeller, geliştirilmiş gecikme süresiyle işlenebilir.
Yapay zeka kümeleri için “Proje Rainier”
AWS ayrıca yüzlerce Trainium2 UltraServer'ı bir EC2 UltraCluster'da birleştirerek mevcut çözümlere göre küme boyutunda artış sağlayan “Project Rainier”ı da duyurdu. Bu UltraClusters, Anthropic gibi kuruluşlarda yapay zeka modellerini eğitmek için kullanılır. Anthropic bunları Trainium2'deki Amazon Bedrock için Claude modellerini optimize etmek amacıyla kullanıyor. Bu altyapı, müşterilerin trilyonlarca parametreye sahip modelleri verimli bir şekilde eğitmesine ve bunları gerçek zamanlı olarak çalıştırmasına olanak sağlamalıdır.
AWS, kümelerin boyutunu artırmanın performansı artırmak için yeterli olmadığını vurguladı. Bunun yerine yeni Trainium2 UltraServer mimarisi veri dağıtımını ve kaynak tahsisini iyileştirir. Bu, geleneksel ağ oluşturmanın sınırlamalarıyla karşılaşmadan genel eğitim süresini azaltır.
Nvidia Blackwell ve Outlook ile yeni vakalar
AWS, Trainium2 çözümlerine ek olarak EC2 P6 bulut sunucularını da kullanıma sundu. Nvidia'nın yeni nesil Blackwell GPU'sunu temel alıyorlar. Mevcut nesille karşılaştırıldığında AWS, bilgi işlem yoğunluklu üretken yapay zeka uygulamaları için 2,5 kata kadar daha yüksek performans ve özel optimizasyon vaat ediyor. AWS, P6 bulut sunucularını öncelikle hızlı yanıt süreleri ve yüksek ölçeklenebilirlik gerektiren uygulamalarda görüyor.
AWS ayrıca Trainium2'nin halefi olarak yakında çıkacak olan Trainium3 çipini de duyurdu. Bu, 3 nanometrelik bir işlem kullanılarak üretilmiştir. Önceki modelle karşılaştırıldığında enerji açısından daha verimli ve dört kat daha güçlü olduğu söyleniyor. Bu, müşterilerin kalıpları daha hızlı yinelemelerine ve bunları gerçek zamanlı olarak kullanmalarına olanak tanıyacak. Trainium3'ün sonraki UltraServer sürümlerinde mevcut olması bekleniyor.
(yardımcı)