Teknik Beyaz Kağıt: NVIDIA Mellanox 920-9B210-00FN-0D0 InfiniBand Switch Çözümü

January 6, 2026

Teknik Beyaz Kağıt: NVIDIA Mellanox 920-9B210-00FN-0D0 InfiniBand Switch Çözümü
1Proje Arkaplanı ve İhtiyaç Analizi

Hesaplama iş yüklerinin eksascale yapay zeka eğitimine ve yüksek sadakatli HPC simülasyonlarına doğru evrimleşmesi, performans sıkışıklığını temel olarak hesaplamadan birbirine bağlamaya kaydırdı.Modern RDMA bağımlı kümeler sadece yüksek bant genişliği değil, aynı zamanda belirleyici ultra düşük gecikme sağlayan bir kumaş ister.Eski ağlar genellikle değişken gecikme, tıkanıklık kaynaklı paket kaybı ve yönetim karmaşıklığı getirir.Bu da daha uzun çözüm süresi anlamına gelir., GPU / CPU kaynaklarının yetersiz kullanımı ve artan operasyonel genel masraflar.

Bu teknik çözüm, yeni nesil veri merkezleri ve araştırma tesisleri için temel gereksinimleri karşılar:Klasik HPC (MPI tabanlı) ve modern AI (kollektif iletişim) iş yüklerini birleştirebilen yüksek performanslı kumaşTemel teknik talepler, mikrosaniye altındaki anahtar gecikme süresi, tüm-herkese iletişim kalıpları için engelleme olmayan verimlilik, akıllı tıkanıklık kontrolü,ve derin görünürlük ve otomasyon sağlayan bir yönetim çerçevesi.920-9B210-00FN-0D0 InfiniBand anahtarı OPN çözümüBu sıkı standartları karşılamak için tasarlanmıştır.

2Genel Ağ/Sistem Mimarlığı Tasarımı

Önerilen mimari, NDR 400Gb/s InfiniBand teknolojisine dayanan maksimum bölme bant genişliği ve ölçeklenebilirlik için tasarlanmış bir omurilik yapısıdır.NVIDIA Mellanox 920-9B210-00FN-0D0çok yüksek bant genişliği çekirdeğini oluşturan anahtarlar. Yaprak katmanı, hesaplama düğümlerini (NVIDIA DGX sistemleri gibi GPU sunucuları, CPU kümeleri) bağlayan NDR veya HDR anahtarlarının bir karışımından oluşabilir.yüksek performanslı paralel depolama (NVMe-oF), ve yönetim düğümleri.

Bu kopyalanmamış tasarım öngörülebilir gecikmeyi sağlar ve kumaş içinde aşırı aboneliği ortadan kaldırır.

  • Birleştirilmiş kumaş:Yönetimi basitleştiren ve CAPEX'i azaltan hesaplama (Doğu-Batı) ve depolama trafiği için tek bir ağ.
  • Kayıpsız operasyon:RDMA ve MPI performansı için kritik olan sıfır paket kaybını garanti etmek için InfiniBand'in yerel tıkanıklık kontrolü ve trafik akışı yönetimi.
  • Yazılım tanımlı ağ:NVIDIA Cumulus Linux ve UFM® platformu ile entegrasyon, programlanabilir kumaş otomasyonuna ve politika tabanlı yönetime izin verir.
3NVIDIA Mellanox 920-9B210-00FN-0D0'nun Rolü ve Anahtar Özellikleri

Bu920-9B210-00FN-0D0 MQM9790-NS2F 400Gb/s NDRanahtar, bu mimarinin stratejik köşe taşıdır ve yüksek performanslı omurgası olarak hareket eder.

Resmi belgede ayrıntılı olarak belirtilen temel teknik özellikleri920-9B210-00FN-0D0 veri sayfası, doğrudan düşük gecikme optimizasyonu ile ilgilenir:

  • Kesme geçiş ve ultra düşük gecikme:Değiştirici, gelişmiş kesme geçiş mimarisini kullanır ve 100 nanosaniye altındaki port-port gecikmesi elde eder..
  • NDR 400Gb/s Bant genişliği:Her port, dağıtılmış yapay zeka eğitim kontrol noktaları veya büyük ölçekli MPI_allreduce operasyonları gibi en yüksek iş yükleri sırasında tıkanıklığı önlemek için gerekli ön odayı sağlayan 400Gb / s sunuyor.
  • Uyumlu yönlendirme ve tıkanıklık kontrolü:NVIDIA'nın Switch'e yerleştirilmiş ölçeklenebilir Hiyerarşik Toplama ve Azaltma Protokolü (SHARP) TM v3 teknolojisi, CPU'dan toplu işlemleri boşaltır,Senkronizasyon masraflarını önemli ölçüde azaltıyor.Dinamik uyarlanabilir yönlendirme ile birleştirildiğinde, sıcak noktaları önler ve dengeli kumaş kullanımı sağlar.
  • İleri ve geri uyumluluk:Değişim, sorunsuz bir göç stratejisinin ayrılmaz bir parçasıdır.uyumlumevcut HDR (200Gb/s) ve EDR (100Gb/s) ekipmanları ile aşamalı yükseltmeleri mümkün kılan.920-9B210-00FN-0D0 özellikleriLiman bağlantısı ve kablo türlerini planlamak için çok önemlidir.
4Uygulama ve ölçeklendirme tavsiyeleri (Tipik topoloji açıklaması dahil)

İlk dağıtım modüler bir "pod" yaklaşımını takip etmelidir.920-9B210-00FN-0D0Redundansi için omurilik rolünde anahtarlar, birkaç düzine hesaplama düğümünü destekleyen birden fazla HDR veya NDR yaprak anahtarına bağlı.

En iyi performans için önerilen topoloji:İki katlı engelleyici olmayan Clos (Fat-Tree) topolojisi.Omurilik anahtarlarının sayısı (920-9B210-00FN-0D0 birimleri) her bir yaprak anahtarından gelen yukarı bağlantı sayısına ve istenen fazla abonelik oranına (ideal olarak 1HPC/AI için: 1.

  • Ölçeklendirme:Klüsteri ölçeklendirmek için, daha fazla yaprak anahtarı ekleyin ve orantılı olarak daha fazla ekleyin920-9B210-00FN-0D0UFM® yönetimi altında kumaşın adresleme ve yönlendirme ölçeği sorunsuz.
  • Büyütme:Bireysel düğümler NDR NIC'lere yükseltilebilir ve omurga için tam 400Gb/s bant genişliğini hemen kullanabilirler.uyumluDoğa bu heterojen ortamı destekler.
  • Kablolama ve güç:Uygulama planlaması, NDR uyumlu optik kabloları (örneğin, OSFP) dikkate almalıdır.920-9B210-00FN-0D0 özellikleriBilgi merkezi gücü ve soğutma tasarımı için doğru güç tüketimi ve termal veriler sağlar.

Bu çözüm mevcut olduğundaSatılık, sertifikalı ortaklarla çalışmak doğru modeli önerilmektedir.920-9B210-00FN-0D0 fiyatıve belirli ölçeklendirme planınız için miktar.

5. İşlemler, İzleme, Sorun Çözme ve Optimizasyon Tavsiyeleri

Operasyonel mükemmellik, NVIDIA UFM® platformu aracılığıyla elde edilir.920-9B210-00FN-0D0Değiştir.

  • Proaktif İzleme:UFM®, anahtar sağlığı, port kullanımı, sıcaklık, hata sayaçları ve uygulama düzeyinde trafik kalıplarının derinlemesine analizi hakkında gerçek zamanlı telemetri sunar.MPI ve RDMA iletişim matrisleri dahil.
  • Otomatik Kumaş Yönetimi:İlk düzenleme ve kablo doğrulamalarından firmware güncellemelerine ve yapılandırma yedeklemelerine kadar, UFM® rutin görevleri otomatikleştirir, insan hatasını ve operasyonel genel masrafları azaltır.
  • Sorun giderme:Gelişmiş araçlar performans anormalliklerini tespit edebilir, tıkanıklığa neden olan yanlış davranış akışlarını tanımlayabilir ve arızalı bağlantıları veya bileşenleri hızlı bir şekilde izole etmek için kumaş topolojisini görselleştirebilir.
  • Sürekli Optimizasyon:UFM® anlayışlarını doğru boyutlu iş yükleri için kullanın, performansınveri sayfasıYüklü yoğunluk ve gecikme ölçümlerinin düzenli olarak gözden geçirilmesi, kumaşların en iyi performansını sürdürmenin anahtarıdır.
6Sonuç ve Değer Değerlendirmesi

Üzerine odaklanan bir kumaş mimarisi dağıtmakNVIDIA Mellanox 920-9B210-00FN-0D0InfiniBand anahtarı, yüksek performanslı bilgisayara bağımlı kuruluşlar için temel bir rekabet avantajı sağlar.Bu teknik çözüm, çok boyutlu ölçülebilir bir değer sunar:

Değer Boyutu Gerçekleşen Sonuçlar
Teknik Performans Deterministik mikro saniyeden küçük gecikme, engellemez 400Gb/s bant genişliği ve RDMA ve MPI için tıkanıklıksuz çalışma.
İşletme/Araştırma Hızlandırması Uygulama çalışma sürelerini %20-40 oranında azaltır, keşif ve ürün geliştirme döngülerini hızlandırır.
Operasyonel Verimlilik Birleşik yönetim, otomatik tedarik ve derin telemetri TCO'yu düşürür ve arıza süresini en aza indirir.
Yatırım Koruması Geriye dönük uyumluluk ve ölçeklenebilir mimari, mevcut yatırımları korurken, gelecekteki teknolojilere açık bir yol sağlar.

Özetle,920-9B210-00FN-0D0Sadece bir bileşen değil, yüksek performanslı, birleşik bir altyapının sağlayıcısıdır.Ağı potansiyel bir yükümlülükten modern hesaplama kümelerinin gücünü tamamen serbest bırakan stratejik bir varlığa dönüştürüyor..