Mellanox (NVIDIA) MQM9790-NS2F InfiniBand Anahtarı İş Başında | RDMA/HPC/AI için Düşük Gecikmeli Ara Bağlantı Optimizasyonu
May 28, 2026
Büyük ölçekli yapay zeka eğitim kümeleri ve yüksek performanslı hesaplama (HPC) merkezleri ağ bant genişliği ve gecikme gereksinimlerini benzeri görülmemiş seviyelere taşıdıkça,Geleneksel Ethernet çözümleri RDMA iş yükleri altında sıkıntı kontrolü ve öngörülemeyen kuyruğu gecikme ile giderek daha fazla mücadele ediyorBir önde gelen ulusal süperbilgisayar merkezi, yeni nesil GPU kümesini yükseltirken yakın zamanda tam olarak bu zorlukla karşı karşıya kaldı.Mellanox (NVIDIA) MQM9790-NS2FKüplerinin performans profilini temelden değiştiren bir karar.
Arkaplan ve Zorluk: Ölçeklenebilirlik Duvarı
Süperbilgisayar merkezinin mevcut HDR InfiniBand dokunuşuna yakın çalışıyordu.All-reduce ve all-to-all gibi toplu iletişim operasyonları önemli kuyruğu gecikme artışları yaşıyordu.Şebeke, GPU'nun boşluk zamanına neden olan, hem hesaplama kaynaklarını hem de enerjiyi boşa harcadığı, birincil sıkıntı haline gelmişti.Mühendisler, büyük ölçekli dağıtılmış eğitim çalışmaları sırasında, hesaplama döngülerinin yaklaşık% 30'unun iletişim masrafları nedeniyle kaybedildiğini tahmin ettiler..
Takımın ihtiyacı olan şey,Port başına 400Gb/s, kendiliğinden RDMA desteği ve ağ içi hesaplama hızlandırması ̇ tümü mevcut HDR altyapısı ile geriye dönük uyumluluğu korurken.MQM9790-NS2F veri sayfasıveMQM9790-NS2F özellikleri, belirlediler kiMQM9790-NS2F InfiniBand anahtarıyoğunluk, performans ve özelliklerin ideal dengesini sunar.
Çözüm ve Uygulama: 64 Portlu NDR Kumaş Yükseltmesi
Merkez dört kişi görevlendirdi.MQM9790-NS2F 400Gb/s NDR 64-portlu OSFPbir omurilik yaprağı topolojisinde anahtarlar, 64 hesaplama düğümünde 2.048 GPU'yu birbirine bağlar. Her düğüm tek bir OSFP-to-4x100Gb/s splitter kablosuyla bağlanır,Kablo yönetimi yoğunluğunu optimize ederken sunucu başına 400Gb/s toplu bant genişliği sağlamak.
| Uygulama Parametresi | Yapılandırma |
|---|---|
| Değiştirici Modeli | NVIDIA Mellanox MQM9790-NS2F(4 birim) |
| Port Yapılandırması | 64x OSFP, port başına 400Gb/s NDR |
| Toplam GPU | 2,048 (NVIDIA H100) |
| Ağ İçin Özellikler | SHARPv3, Uyumlu Yönlendirme, Sıkışıklık Kontrolü. |
Uygulamanın anahtarı, tamMQM9790-NS2F uyumlumevcut HDR uç noktası adaptörleri ile çalışmak. The switch’s automatic speed negotiation and link-layer translation allowed a phased migration strategy — legacy nodes operate at HDR speeds while new NDR-capable servers leverage full 400Gb/s bandwidthMerkez ayrıca, LLM eğitiminde yaygın olarak bulunan büyük mesaj boyutları için %65'ten fazla trafik azaltan SHARPv3 ağ içi birleştirmesini de kullandı.
Benzer yükseltmeleri değerlendirenler için,MQM9790-NS2F fiyatısoruşturmalar veSatılık MQM9790-NS2FKurumsal ve araştırma müşterileri arasında kullanılabilirlik önemli ölçüde artmıştır.Değiştiricinin rekabetçi toplam mülkiyet maliyeti 64 port yoğunluğu nedeniyle daha düşük anahtar sayısını hesaba katarak hem yeni inşaatlar hem de güncelleme projeleri için çekici bir seçenek haline geliyor.
Sonuçlar ve faydalar: Ölçülebilir performans kazançları
- Tüm gecikmeyi azaltmak (1GB mesaj):48μs'den 19μs'e düşürüldü (60% iyileşme)
- Etkili GPU kullanımı:Büyük ölçekli eğitim sırasında %71'den %93'e yükseldi
- İşin tamamlanma süresi (GPT-3 175B eşdeğeri):% 41 oranında kısaltılmış
- Ağdan kaynaklanan kuyruk gecikmesi (99'uncu yüzdesi):210μs'den 35μs'in altına kesilmiş
BirMQM9790-NS2F InfiniBand anahtar çözümü, dağıtım, 400Gb/s NDR kumaşlarının teorik vaatlerini yerine getirebileceğini gösterdi.Sıkışıklık kontrolü algoritmaları ve uyarlanabilir yönlendirme kombinasyonu, önceki HDR kumaşını tüm-to-all iletişim aşamalarında rahatsız eden "inkast" çöküş kalıplarını ortadan kaldırdı.
Özet ve Görünüm: Exascale AI için bir Vakıf
Süperbilgisayar merkezinin başarısıMQM9790-NS2FŞimdi ek olarak 4.096 GPU sayısını ikiye katlayacak ikinci bir aşamayı planlıyorlar.MQM9790-NS2F 400Gb/s NDR 64-portlu OSFPDeğiştiricilerin telemetri ve bant dışı yönetim özellikleri de öngörüsel tıkanıklık önlemini sağladı.Ağ ekibi için operasyonel genel masrafları azaltmak.
Yeni nesil kumaşları değerlendiren ağ mimarları ve BT yöneticileri için,NVIDIA Mellanox MQM9790-NS2Fİster yeni bir yapay zeka araştırma kümesi inşa ediyorsanız, ister mevcut bir HPC tesisini yükseltirseniz, bu anahtar düşük gecikme,Modern paralel iş yükleri için gerekli yüksek bant genişliği temel.

