Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 Eylemde: RDMA/HPC/AI Klüsterleri için Düşük Gecikme İlişkileri Optimize Etme
April 14, 2026
Büyük ölçekli yapay zeka modellerinin eğitimi ve exascale HPC döneminde, ağ gecikmesi, doğrusal küme ölçeklenebilirliğini sınırlayan en kritik darboğaz olarak ortaya çıkmıştır. Bu zorluğun üstesinden gelmek için, Mellanox (NVIDIA Mellanox) 920-9B110-00FH-0D0 InfiniBand anahtarı, araştırma kurumlarının ve kurumsal yapay zeka laboratuvarlarının yüksek performanslı ağlarını tasarlama biçimini dönüştürüyor. Bu makale, 920-9B110-00FH-0D0 ürününün RDMA yoğun iş yükleri için deterministik, ultra düşük gecikme süresi sağladığı tipik bir dağıtım senaryosunu inceliyor.
Arka Plan ve Zorluk: Yapay Zeka Kümesi İletişim Duvarı
Orta ölçekli bir yapay zeka araştırma tesisi, 64 düğüm üzerinde dağıtılmış eğitim sırasında GPU'ların boşta kalmasıyla mücadele ediyordu. Mevcut 100Gb Ethernet ağları, incast tıkanıklığından muzdaripti ve toplu iletişim işlemlerinin (all-reduce, all-gather) toplam eğitim süresinin %40'ına kadarını almasına neden oluyordu. Ağ mimarlarının, mikrosaniye altı gecikmeyi korurken port başına 200Gb/s'ye kadar ölçeklenebilen, kayıpsız, yüksek verimli bir çözüme ihtiyacı vardı. Mevcut seçenekleri değerlendirdikten sonra ekip, yeni spine-leaf topolojilerinin temel yapı taşı olarak 920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDR ürününü seçti.
Çözüm ve Dağıtım: InfiniBand Ağının Uygulanması
Dağıtım, iki katmanlı bir fat-tree mimarisinde yapılandırılmış NVIDIA Mellanox 920-9B110-00FH-0D0 anahtarları etrafında yoğunlaştı. Her hesaplama düğümü, pasif bakır kablolar aracılığıyla yaprak anahtarlarına bağlanan HDR ConnectX-6 adaptörleriyle donatılmıştı. Anahtar uygulama adımları şunları içeriyordu:
- Converged Ethernet (RoCE) Üzerinden RDMA Alternatifi: Donanım tabanlı tıkanıklık kontrolüne sahip yerel InfiniBand, paket düşmelerini tamamen ortadan kaldırdı.
- Uyarlanabilir yönlendirme: 920-9B110-00FH-0D0 InfiniBand anahtarı OPN çözümü , sıcak noktaların oluşmasını engelleyerek birden fazla yol arasında dinamik yük dengelemesini sağladı.
- Ağ yönetimi: Tek bir ağda 2.000 düğüme kadar desteği onaylayan 920-9B110-00FH-0D0 özellikleri ile Subnet Manager (OpenSM) kullanıldı.
Satın almadan önce mühendisler, mevcut optiklerle uyumluluğu doğrulamak için 920-9B110-00FH-0D0 veri sayfasını incelediler. 920-9B110-00FH-0D0 uyumlu ekosistemi, malzeme listesini basitleştiren tüm büyük HDR kablo montajlarını içeriyordu. Bütçe açısından, 920-9B110-00FH-0D0 fiyatı alternatif HDR anahtarlarına kıyasla rekabetçiydi ve birimler NVIDIA kanal ortakları aracılığıyla kolayca bulunabiliyordu (920-9B110-00FH-0D0 satılık).
Sonuçlar ve Faydalar: Ölçülebilir Performans Kazançları
Dağıtım sonrası telemetri, üç temel metrikte dramatik iyileşmeler ortaya koydu:
| Metrik | Önce (100GbE) | Sonra (920-9B110-00FH-0D0 HDR) | İyileşme |
|---|---|---|---|
| Ort. All-Reduce Gecikmesi (64 düğüm) | 340µs | 78µs | %77 azalma |
| GPU boşta kalma süresi (iletişim yükü) | %38 | %11 | %27 mutlak kazanç |
| Etkin ağ bant genişliği kullanımı | %62 | %94 | +%32 |
Ham sayıların ötesinde, 920-9B110-00FH-0D0 InfiniBand anahtarı OPN ekibin ağı yeniden tasarlamadan 64'ten 256 düğüme ölçeklenmesini sağladı. InfiniBand'ın kredi tabanlı akış kontrolünün sağladığı deterministik gecikme, yüzlerce GPU'da eğitim tutarlılığını sürdürmek için kritik öneme sahipti. Mühendisler ayrıca, mikro patlamaları gerçek zamanlı olarak tespit etmek ve düzeltmek için 920-9B110-00FH-0D0 ürününün donanım tabanlı tıkanıklık bildiriminden yararlandılar.
Özet ve Görünüm: Yapay Zeka Ara Bağlantılarının Geleceği
Dağıtım, NVIDIA Mellanox 920-9B110-00FH-0D0 ürününün yeni nesil yapay zeka ve HPC kümeleri için temel bir unsur olarak hizmet ettiğini doğrulamaktadır. Kayıplı Ethernet ağlarını kayıpsız InfiniBand ile değiştirerek, kuruluşlar daha önce iletişim duraklamalarında boşa harcanan GPU hesaplamalarının %30'una kadarını geri kazanabilirler. Yeni yapay zeka altyapısı planlayan mimarlar için, 920-9B110-00FH-0D0 veri sayfası küçük DGX kümelerinden süper bilgisayar ölçeğindeki dağıtımlara kadar çeşitli topolojiler hakkında ayrıntılı rehberlik sağlar.
İş yükleri daha büyük model paralelliği ve daha yüksek GPU yoğunluklarına doğru geliştikçe, 920-9B110-00FH-0D0 MQM8790-HS2F 200Gb/s HDR ürününün geriye dönük uyumlu tasarımı sayesinde gelecekteki 400Gb/s ağlara net bir yükseltme yolu sunmaktadır. İster 920-9B110-00FH-0D0 fiyatını operasyonel verimlilik kazançlarına karşı değerlendiriyor olun, ister 920-9B110-00FH-0D0 uyumlu kablolama seçeneklerini doğruluyor olun, bu InfiniBand anahtarı veri odaklı kuruluşlar için ölçülebilir bir yatırım getirisi sağlar.

