Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 Teknik Beyaz Kitabı: Düşük Gecikmeli Bağlantı Optimizasyonu
April 14, 2026
Bu teknik beyaz kağıt, ağ mimarları, satış öncesi mühendisler ve operasyon yöneticileri için tasarlanmıştır ve temel olarak InfiniBand anahtarına odaklanan kapsamlı bir çözüm sunmaktadır. Bu platformun HPC ve AI küme ortamlarında RDMA yoğun iş yükleri için deterministik, ultra düşük gecikmeyi nasıl sağladığını inceliyoruz.
Modern Yapay Zeka eğitim çerçeveleri (PyTorch DDP, DeepSpeed, Megatron) ve HPC simülasyon kodları (CFD, hava durumu modellemesi, moleküler dinamik) toplu iletişim önceliklerine büyük ölçüde dayanır. Geleneksel Ethernet ağları üç temel sorun getirir: incast tıkanıklığı nedeniyle paket kaybı, depolama ve iletim anahtarlamadan kaynaklanan değişken gecikme ve TCP/IP yığın işlemesinden kaynaklanan yüksek CPU yükü. Bu sorunlar, büyük ölçekli dağıtılmış eğitimde %30-50 oranında GPU boşta kalma sürelerine neden olur ve bu da doğrudan çözüm süresinin uzamasına ve operasyonel maliyetlerin artmasına yol açar.
6. Özet ve Değer DeğerlendirmesiToplam sahip olma maliyetini hesaplarken, donanım tabanlı RDMA, kesme anahtarlama ve kredi tabanlı akış kontrolü sunarak yerel InfiniBand teknolojisi aracılığıyla bu zorlukları ele alır. Hedef kullanım senaryoları arasında 64-1.024 GPU kümesini yöneten AI araştırma laboratuvarları, mikrosaniye altı MPI gecikmesi gerektiren HPC merkezleri ve çıplak metal AI örnek aileleri oluşturan bulut sağlayıcıları yer alır.
Önerdiğimiz mimari, enine bant genişliği, maliyet ve ölçeklenebilirliği dengeleyen iki katmanlı bir fat-tree (katlanmış Clos) topolojisi kullanır. Tasarım parametreleri, her biri çift portlu HDR ConnectX-6 adaptörleriyle donatılmış 512 adede kadar hesaplama düğümünü varsayar.
| Katman | Cihaz | Port Yapılandırması | Miktar (512 düğüm) |
|---|---|---|---|
| Yaprak | 920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDR | 40x HDR aşağı + 8x HDR yukarı | 16 birim |
| Omurga | 40x HDR (yalnızca aşağı) | 8 birim |
Bu yapılandırma, düğüm başına 200Gb/s tam enine bant genişliği, tüm-için-tüm iletişim desenleri için engelsiz performans ve hop başına 130ns kadar düşük gecikme (kesme) sağlar. 920-9B110-00FH-0D0 InfiniBand anahtar OPN çözümü hem standart hem de özel SKU'ları destekleyerek esnek port kırılma yapılandırmalarına (örneğin, HDR port başına 4x 50Gb/s) olanak tanır.
Önerilen mimari içinde, hem yaprak hem de omurga katmanlarında birleşik ağ öğesi olarak hizmet vermektedir. Temel teknik farklılaştırıcılar şunları içerir:
- Donanım Tabanlı RDMA: Çekirdeği ve CPU'yu tamamen atlayarak, <1µs gecikmeyle
- hat hızında bellekten belleğe aktarımları mümkün kılar.Uyarlanabilir yönlendirme (AR):
- Gerçek zamanlı port tıkanıklığına göre paketleri dinamik olarak yeniden yönlendirerek, paket yeniden sıralaması olmadan trafiği mevcut tüm yollar boyunca dağıtır.Tıkanıklık kontrolü:Mimarlar, tam 920-9B110-00FH-0D0 veri sayfası
- nda ayrıntılı olarak açıklandığı gibi, hat başı engellemesini önler.Keskin telemetri:
Entegre donanım monitörleri, proaktif yönetim için port başına tampon doluluk, gecikme ve hata sayaçları sağlar. indirmeye ve kablolama matrisleri ve güç bütçelemesi için resmi 920-9B110-00FH-0D0 spesifikasyonlarını incelemelidir. 920-9B110-00FH-0D0 uyumlu
4. Dağıtım ve Ölçeklendirme Önerileri
- İlk dağıtım için aşamalı bir yaklaşım öneriyoruz:Aşama 1 (Pilot – 32 düğüm): başvurmaya teşvik edilir. Üretim dağıtımları için, NVIDIA'nın iş ortağı ağı aracılığıyla satılık 920-9B110-00FH-0D0
- durumuna bakın.Aşama 2 (Üretim – 128 düğüm):
- 4 yaprak + 2 omurga anahtarıyla tam fat-tree uygulayın. Uyarlanabilir yönlendirme ve tıkanıklık kontrolünü etkinleştirin. NCCL testleriyle (all-reduce, all-gather) genişletilmiş stres testleri çalıştırın.Aşama 3 (Ölçeklendirme – 512+ düğüm): 920-9B110-00FH-0D0 fiyatı
nı daha yüksek radix modellerine göre değerlendirin.Toplam sahip olma maliyetini hesaplarken, 920-9B110-00FH-0D0
5. Operasyonlar, İzleme, Sorun Giderme ve Optimizasyon NVIDIA Mellanox 920-9B110-00FH-0D0
- ağlarının üretim yönetimi iki ana araca dayanır: temel ağ başlatma için OpenSM (alt ağ yöneticisi) ve kurumsal düzeyde telemetri ve otomasyon için NVIDIA UFM (Unified Fabric Manager).Günlük sağlık kontrolleri:
- Ağ topolojisini doğrulamak için `ibnetdiscover`, port durumunu izlemek için `ibstat` ve hata sayaçlarını izlemek için `perfquery` kullanın.Performans ayarı:
- Deterministik gecikme için uyarlanabilir yönlendirmeyi "statik" veya maksimum verim için "dinamik" olarak ayarlayın. Kontrol ve veri trafiğini önceliklendirmek için SL2VL eşlemesini ayarlayın.Yaygın sorunları giderme:Mimarlar, tam 920-9B110-00FH-0D0 veri sayfasına
- bakın. Alt ağ yöneticisi zaman aşımları genellikle büyük ağlar için `max_hop_count` ayarını gerektirir.Kapasite planlaması: Port kullanımını tahmin etmek ve işleri etkilemeden önce sıcak noktaları belirlemek için UFM'nin tahmine dayalı analitiğinden yararlanın. 920-9B110-00FH-0D0 InfiniBand anahtar OPN
değişen bant genişliği taleplerine uyum sağlamak için esnek sahada yükseltilebilir optikleri destekler. 920-9B110-00FH-0D0 fiyatını
6. Özet ve Değer Değerlendirmesi Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0
- deterministik düşük gecikmeli ara bağlantı gerektiren RDMA/HPC/AI kümeleri için üretime hazır bir temel sunar. Temel değer teklifleri şunları içerir:Performans:
- Düğüm başına 200Gb/s'ye kadar ve mikrosaniye altı 130ns anahtarlama gecikmesi ile binlerce düğüme kadar doğrusal GPU ölçeklendirmesi sağlar.Operasyonel verimlilik:
- Yerel donanım boşaltmaları, ağ G/Ç'si için CPU müdahalesini ortadan kaldırarak çekirdekleri hesaplama için serbest bırakır.Geleceğe dönüklük:
- Port hızı çevirisi yoluyla EDR (100Gb/s) ile geriye dönük uyumluluk ve NDR (400Gb/s) ile ileriye dönük uyumluluk.Toplam sahip olma maliyeti: 920-9B110-00FH-0D0 fiyatını
Ethernet alternatiflerine karşı hesaplarken, azaltılmış GPU boşta kalma süresinden (tipik olarak %15-25 kurtarma) ve ortadan kaldırılan özel tıkanıklık kontrol lisanslarından elde edilen tasarrufları dahil edin.Mimarlar, tam 920-9B110-00FH-0D0 veri sayfasını indirmeye ve kablolama matrisleri ve güç bütçelemesi için resmi 920-9B110-00FH-0D0 spesifikasyonlarına başvurmaya teşvik edilir. Üretim dağıtımları için, NVIDIA'nın iş ortağı ağı aracılığıyla satılık 920-9B110-00FH-0D0

