NVIDIA Mellanox MCX653106A-HDAT Sunucu Adaptörü Teknik Beyaz Kitap

April 30, 2026

NVIDIA Mellanox MCX653106A-HDAT Sunucu Adaptörü Teknik Beyaz Kitap

Bu teknik beyaz kitap ağ mimarları, satış öncesi mühendisler ve operasyon yöneticileri için tasarlanmıştır.düşük gecikme verim merkezi ağlarıNVIDIA Mellanox MCX653106A-HDATRDMA/RoCE taşımacılığına ve ölçülebilir sunucu verimi kazanımlarına odaklanan sunucu NIC.

1Proje Arkaplanı ve Gereksinimler Analizi

Modern veri merkezi iş yükleri, NVMe-oF depolama kumaşları, dağıtılmış AI eğitimi, yüksek frekanslı ticaret ve gerçek zamanlı analizler dahil olmak üzere ağ altyapısına aşırı talepler sunar.Geleneksel TCP/IP yığın işleme üç temel sıkıntı getirir: yüksek CPU overhead (genellikle çekirdek döngülerinin% 50'sini aşan), çekirdek atlama sınırlamaları nedeniyle değişken gecikme ve protokol işleme overhead'ten düşük etkili işlem hızı.Kuruluşlar, uygulama mantığı için CPU kaynaklarını serbest bırakırken, mikro saniyenin altındaki gecikme ile hat hızı bant genişliği sağlayan bir çözüme ihtiyaç duyarlarAna gereksinimler arasında donanım yüklenmiş RDMA, kayıpsız RoCE taşımacılığı, mevcut Ethernet kumaşlarıyla kesintisiz entegrasyon,ve izleme ve sorun giderme için kapsamlı operasyonel araçlar.

2Genel Ağ ve Sistem Mimarlığı Tasarımı

Önerilen mimari, RoCE taşımacılığı için optimize edilmiş iki katmanlı bir Clos (spine-leaf) topolojisini benimser.Geliştirilmiş İletişim Seçimi) RDMA trafiği için kayıpsız davranış garanti etmek için yapılandırılmıştır. Omurilik anahtarları, kumaş boyunca herhangi bir iletişimin engellenmemesini sağlar.MCX653106A-HDAT Ethernet adaptör kartı, aktif-aktif bağlama şeklinde yapılandırılmış çift 100GbE portları üzerinden yaprak anahtarlarına bağlanır.Mimarlık, RDMA trafiğini (PFC etkinleştirilmiş özel öncelik kuyruğu) düzenli TCP/IP trafiğinden (en iyi çaba kuyruğu) ayırır, kritik akışlar için belirleyici düşük gecikme sağlar. VLAN segmentasyonu gerekirse yönlendirme çapraz alt ağ iletişimini ele alırken RDMA alanlarını izole eder.

3. NVIDIA Mellanox MCX653106A-HDAT'ın Rolü ve Anahtar Özellikleri

BuMCX653106A-HDAT ConnectX adaptörü PCIe ağ kartıPCIe 4.0 x16 ana arayüzü ile ConnectX-6 mimarisi üzerine inşa edilmiş,RDMA iş yükleri altında 600ns altındaki gecikme ile çift portlu 100GbE (veya tek portlu 200GbE) işlem hızını sağlar.Bu tasarımda kullanılan temel özellikler şunlardır:

  • Donanım RDMA ve RoCE yükleme:RDMA fiillerinin tam yüklenmesi, veri hareketi için ana CPU'nun katılımını ortadan kaldırır. Hem RoCE v1 hem de v2'yi destekler.
  • NVMe-oF hızlandırıcısı:NVMe komutlarını hızlandıran donanım mantığı, depolama erişim gecikmesini yazılım hedeflerine kıyasla %80'den fazla azaltır.
  • Programlanabilir veri yolu (ASAP2):Esnek paket işleme ve üst üste ağların yüklenmesini sağlar (VXLAN, JENEVE).
  • Multi-Host ve GPU Direkt RDMA:CPU müdahalesi olmadan GPU'lar arasında düğümler arasında doğrudan eşler arası iletişim, AI kümeleri için kritiktir.
  • Telemetri ve tıkanıklık kontrolü:Donanım tabanlı akış izleme, ECN işaretleme ve dinamik oran sınırlama.

MühendislerMCX653106A-HDAT veri sayfasıHem standart hem de OCP 3.0 biçim faktörleri desteği, kapsamlı işletim sistemi kapsamı (MLNX_OFED, Windows, ESXi ile Linux dağıtımları) ve geniş sunucu uyumluluğu.MCX653106A-HDAT özellikleriAynı zamanda yüksek yoğunluklu dağıtımlar için uygun olan 75W maksimum güç tüketimi ve 0 °C'den 55 °C'ye kadar çalışma sıcaklıklarını da onaylar.

4. Uygulama ve ölçekleme tavsiyeleri (topoloji ile)

Uygulama aşamalı bir yaklaşımı takip eder.

Bileşen Yapılandırma miktarı
Hesaplama/Bellekleme Düğümleri Çift Soketli Intel/AMD, 256GB+ RAM, NVMe sürücüleri 16
Düğün başına NIC MCX653106A-HDAT(iki portlu 100GbE) 16
Yaprak Değiştirici Mellanox SN3700 (32x 100GbE, DCB etkin) 2
Omurilik Değiştiricileri Mellanox SN3700 (100GbE yukarı bağlantıları) 1 (işten çıkarma için 2'ye kadar bir ölçek)

Uygulama Adımları:

  1. Adım 1 Validasyon:Onaylayın.MCX653106A-HDAT uyumlusunucular, firmware değiştirme ve işletim sistemi çekirdeği sürümleri.MCX653106A-HDAT veri sayfası.
  2. Adım 2: Sürücünün yüklenmesi:MLNX_OFED sürücü paketini (en az sürüm 5.8) tüm düğümlere dağıt. RDMA ve RoCE çekirdek modüllerini etkinleştir.
  3. Adım 3: Kumaş Yapısı:Yaprak anahtarlarında PFC (RDMA için öncelik 3) ve ETS'yi etkinleştir.
  4. Adım 4: RoCE kurulumu:Her birini yapılandırMCX653106A-HDAT Ethernet adaptör kartıRoCE v2 (yönlendirilebilir) veya v1 (yönlendirilebilir olmayan) ile GID modunu IPv4 adresleme ile RoCE v2'ye ayarlayın.
  5. Adım 5: Doğrulama:bant genişliği ve gecikme doğrulamak için düğümler arasında ib_write_bw ve ib_send_lat testleri çalıştırın.Perfektivemlnx_perf.

16 düğümün ötesinde ölçeklendirme için, 128 düğümüne kadar destek veren redundant omurilik anahtarları ile omurilik yaprağı topolojisine geçiş.MCX653106A-HDAT Ethernet adaptör kart çözümüRoCE, yük dağılımı için ECMP'yi kullandığı için kumaş yeniden yapılandırması olmadan doğrusal olarak ölçeklendirilir.

5İşlemler, İzleme, Sorun Çözme ve Optimizasyon

RDMA/RoCE ortamlarının etkili çalışması için özel araçlar gereklidir.

  • Trafik sıkışıklığı tespiti:PFC duraklama çerçevelerini anahtar telemetriyi kullanarak (örneğin Mellanox SHARP) port başına izleyin. Yüksek duraklama oranları akış kontrol ayarlaması gerektiren incast veya mikro patlamaları gösterir.
  • Performans Ana Hatası:Kullanımımlx5cmdveEttool -SSıradaki RDMA sayaçlarını toplamak, sıra dışı tamamlamaları ve yeniden iletimleri takip etmek.
  • ECN & DCQCN Düzenleme:Açık sıkıntı bildirimi (ECN) anahtarlarda etkinleştir ve dinamik sıkıntı kontrolü (DCQCN) parametreleriniMCX653106A-HDATSürücü (örneğin,dcqcn_r_ai=40,dcqcn_r_hai=10)
  • Kayıt Analizi:İnceleme/var/log/bildirilerRDMA bağlantı hataları için (örneğin, ¢mlx5_core: QP'yi oluşturmakta başarısız oldu). GID indekslerinin uç noktalar arasında eşleştiğini doğrulayın.
  • Firmware Güncelleştirmeleri:NIC yazılımını düzenli olarak güncelleMlxfwmmanager.MCX653106A-HDAT özellikleriBir firmware tabanını xx olarak öneririm.36En iyi RoCE performansı için.1010 veya daha yeni.
  • Kapasite planlaması:Tahmin eden kuruluşlar içinMCX653106A-HDAT fiyatıveMCX653106A-HDAT satılıyor.Hacim indirimleri, RDMA trafiği için proje büyüme oranları ve plan yaprak anahtarı fazla abonelik oranları (tipik olarak depolama kumaşları için 3: 1).

Genel bir sorun giderme senaryosu: sıfır paket kaybı ile tek yönlü yüksek gecikme genellikle yanlış yapılandırılmış ECN eşiği veya asimetrik PFC ayarlarını gösterir.mlnx_qosGüvenilirlik modunun ve DSCP'nin tüm ağ elemanları arasındaki öncelik bağlantılarının doğrulanması.

6Özet & Değer Değerlendirme

BuNVIDIA Mellanox MCX653106A-HDATsunucu NIC, yüksek performanslı RDMA/RoCE ağlarını dağıtmak için üretim hazır bir temel sağlar.

  • Performans:Adaptör başına 200Gb / s'ye kadar verimlilik, daha önce TCP overhead ile sınırlı olan ölçeklendirilmiş depolama ve dağıtılmış bilgisayar iş yüklerini mümkün kılan mikrosaniye altında gecikme ile.
  • Verimlilik:Donanım indirimi, ağla ilgili CPU tüketimini% 50'den% 15'in altına düşürerek uygulama işleme açılan çekirdekleri serbest bırakır.
  • TCO:BuMCX653106A-HDAT Ethernet adaptör kart çözümüVerilen bir verim hedefi için gerekli düğüm sayısını azaltır, sermaye ve işletme giderlerini düşürür.MCX653106A-HDAT fiyatı, sadece verimlilik kazançlarından 9-12 aylık geri ödeme süresini göz önünde bulundurun.
  • Geleceğe Hazırlık:PCIe 5.0 (geriye doğru uyumlu) ve DOCA üzerinden programlanabilirlik desteği, veri merkezi hızlarının 200/400GbE'ye geçmesiyle yatırım korumasını sağlar.

Üretimde test edilmiş bir tasarım kalıbı arayan mimarlar için bu çözüm, RDMA'nın tüm potansiyelini açarken mevcut Ethernet operasyonlarına sorunsuz bir şekilde entegre olur.MCX653106A-HDAT veri sayfasıAyrıntılı mekanik çizimler, zamanlama diyagramları ve gelişmiş özellik açıklamaları için.MCX653106A-HDAT fiyatıveMCX653106A-HDAT satılıyor.İletişim süreleri, yetkili NVIDIA Mellanox dağıtım ortakları.