NVIDIA Mellanox MCX653106A-HDAT Sunucu Adaptörü: RDMA/RoCE Düşük Gecikme Taşıma ve Sunucu

April 30, 2026

hakkında en son şirket haberleri NVIDIA Mellanox MCX653106A-HDAT Sunucu Adaptörü: RDMA/RoCE Düşük Gecikme Taşıma ve Sunucu

Modern veri merkezi ortamlarında - dağıtılmış depolama ve yüksek frekanslı ticaretten büyük ölçekli yapay zeka eğitim kümelerine kadar - geleneksel TCP/IP protokol yığınları önemli bir darboğaz haline gelmiştir. Çekirdek ağ oluşturma, veri kopyalama ve bağlam değiştirme işleminin ek yükü, öngörülemeyen gecikme süresi getirirken önemli CPU kaynaklarını tüketir. Bu vaka çalışması, önde gelen bir bulut altyapı sağlayıcısının bu zorlukların üstesinden nasıl geldiğini, NVIDIA Mellanox MCX653106A-HDAT sunucu NIC'ini dağıtarak hem gecikme süresinde hem de veriminde dramatik iyileştirmeler elde ettiğini inceliyor.

Arka Plan ve Zorluklar: TCP/IP Darboğazı

Standart TCP kullanan sağlayıcının mevcut 25GbE altyapısı, NVMe-oF depolama trafiği ve gerçek zamanlı analiz iş yükleriyle başa çıkmakta zorlanıyordu. Depolama düğümlerindeki CPU kullanımı, yalnızca ağ işlemesi için sık sık %70'i aşıyor, uygulama mantığı için yetersiz boş alan bırakıyordu. Hesaplama ve depolama düğümleri arasındaki uçtan uca gecikme süresi 50-150 mikrosaniye arasında dalgalanıyor, hizmet seviyesi sözleşmelerini etkileyen kuyruk gecikmesi artışlarına neden oluyordu. Mühendislik ekibi, çekirdeği atlayan ve uç noktalar arasında doğrudan bellek erişimi sağlayan bir ağ mimarisinde temel bir değişikliğe ihtiyaç duyulduğunu fark etti.

Çözüm: MCX653106A-HDAT'ı RoCE ile Dağıtma

Birden fazla seçeneği değerlendirdikten sonra ekip, ağ yenilemelerinin temel taşı olarak MCX653106A-HDAT Ethernet adaptör kartı seçti. ConnectX-6 mimarisi üzerine kurulu olan bu MCX653106A-HDAT ConnectX adaptör PCIe ağ kartı, RoCE (RDMA over Converged Ethernet) için yerel donanım desteğiyle çift portlu 100GbE bağlantısı sunar. Dağıtım aşamalı bir yaklaşımla gerçekleştirildi:

  • Aşama 1: Depolama düğümlerindeki (Ceph çalıştıran 10 düğüm) eski NIC'leri yeni adaptörle değiştirin.
  • Aşama 2: Hem NIC'lerde hem de raf üstü anahtarlarda DCB (Öncelik Akış Kontrolü ve ETS) kullanarak kayıpsız Ethernet yapılandırın.
  • Aşama 3: Uygulama trafiğini TCP soketlerinden RDMA tabanlı fiillere ve RoCE üzerinden NVMe-oF'ye geçirin.
  • Aşama 4: Dağıtımı gerçek zamanlı analizleri işleyen hesaplama düğümlerine genişletin.

Mühendisler, MCX653106A-HDAT veri sayfası ve MCX653106A-HDAT spesifikasyonlarına başvurarak mevcut Mellanox anahtar altyapısı ve dağıtılan Linux dağıtımı (MLNX_OFED sürücülerine sahip Ubuntu 22.04) ile tam uyumluluğu doğruladılar. MCX653106A-HDAT uyumlu ekosistemi, NIC değişiminin ötesinde herhangi bir donanım değişikliği gerektirmeyerek kapsamlı olduğunu kanıtladı.

Sonuçlar ve Faydalar: Ölçülebilir Dönüşüm

Dağıtım sonrası testler, tüm temel metriklerde önemli iyileştirmeler ortaya çıkardı. Aşağıdaki tablo, öncesi ve sonrası karşılaştırmasını özetlemektedir:

Metrik Önce (25GbE TCP) Sonra (MCX653106A-HDAT RoCE) İyileşme
Ortalama Gecikme (P99) 120 µs 8 µs %93 azalma
Depolama Düğümü CPU'su (ağ yolu) ~%65 ~%12 5,4 kat azalma
NVMe-oF Okuma Verimi (düğüm başına) 18 Gb/s 96 Gb/s 5,3 kat artış
Mesaj Hızı (64B paket) 15 Mpps 215 Mpps 14,3 kat artış

Bu niceliksel kazançların ötesinde, ekip birkaç niteliksel fayda gözlemledi. MCX653106A-HDAT Ethernet adaptör kartı çözümü, uygulama belleği ve uzak depolama arasında gerçek sıfır kopyalama veri hareketini mümkün kılarak, daha önce trafik patlamaları sırasında aralıklı arızalara neden olan tampon tükenmesi sorunlarını ortadan kaldırdı. Analiz iş yükü için RDMA'ya geçiş, iş tamamlama sürelerini %62 oranında azalttı ve doğrudan iş sonuçlarını iyileştirdi. MCX653106A-HDAT fiyatını toplam sahip olma maliyetine karşı değerlendirildiğinde, depolama düğümü sayısındaki %30'luk azalma (daha yüksek düğüm başına verimlilik sayesinde) dokuz ay içinde geri ödeme sağladı. NVIDIA ortakları aracılığıyla satılık MCX653106A-HDAT, özel ağ işlevleri için gelecekteki programlanabilirliğin kilidini açan DOCA çerçevesine erişimi de içeriyordu.

Sonuç ve Görünüm: Yeni Nesil Altyapı İçin Bir Temel

NVIDIA Mellanox MCX653106A-HDAT dağıtımı, sağlayıcının altyapısını TCP sınırlı bir ortamdan modern iş yüklerini destekleyebilen yüksek performanslı, düşük gecikmeli bir yapıya dönüştürdü. Donanım hızlandırmalı RoCE, PCIe 4.0 arayüzü ve kapsamlı yazılım ekosisteminin birleşimi, günümüz veri merkezlerinin üç kritik talebini karşılıyor: azaltılmış gecikme süresi, artırılmış verim ve iyileştirilmiş CPU verimliliği.

Benzer yükseltmeleri değerlendiren mimarlar için yolculuk, anahtarlar, kablolar ve işletim sistemleri dahil olmak üzere MCX653106A-HDAT uyumlu bileşenlerin doğrulanmasıyla başlar. Ayrıntılı MCX653106A-HDAT veri sayfası, entegrasyon planlaması için güç, termal ve mekanik özellikler sağlar. 200GbE yapılar standart hale geldikçe ve yapay zeka eğitim kümeleri giderek daha düşük gecikme süresi talep ettikçe, MCX653106A-HDAT Ethernet adaptör kartı, kanıtlanmış, üretimde sertleştirilmiş bir çözüm olarak hazır durumdadır. Sağlayıcı şimdi dağıtımı, yapay zeka çıkarım iş yükleri için GPU doğrudan RDMA'yı içerecek şekilde genişletiyor ve bu adaptörü modern veri merkezi mimarisinin temel taşı olarak daha da doğruluyor.