NVIDIA Mellanox MCX556A-ECAT Eylemde: RDMA/RoCE Ultra Düşük Gecikme ve Sunucu Verimliliği Atılımlarını Etkinleştirir
April 23, 2026
Dağıtılmış depolama, yüksek performanslı bilgi işlem (HPC) ve yapay zeka eğitim kümelerinde, ağ gecikmesi ve CPU yükü uzun süredir genel sunucu verimliliğini kısıtlamaktadır. Büyük ölçekli bir bulut hizmet sağlayıcısında yapılan yakın tarihli bir dağıtım, NVIDIA Mellanox MCX556A-ECAT ürününün RDMA ve RoCE teknolojileri aracılığıyla bu zorlukları nasıl ele aldığını ve hem verim hem de gecikme süresi azaltımında ölçülebilir kazanımlar sağladığını göstermektedir.
Müşteri, binlerce sanal makineyi destekleyen çok petabaytlık bir Ceph depolama kümesi işletmektedir. Yükseltmeden önce, standart TCP/IP kullanan 25GbE altyapıları, yüksek CPU kullanımından (%60'ın üzerinde depolama düğümlerinde) ve yoğun yükler sırasında tutarsız gecikmeden muzdaripti. Yedekleme pencereleri sıklıkla sekiz saati aşıyor ve yapay zeka eğitim işleri G/Ç duraklamaları yaşıyordu. Ekip, CPU müdahalesini azaltacak, gecikmeyi düşürecek ve altyapıda tam bir revizyon olmadan ölçeklenecek bir çözüme ihtiyaç duyuyordu. MCX556A-ECAT veri sayfasına incelendikten ve MCX556A-ECAT özellikleri karşılaştırıldıktan sonra, temel yükseltme bileşeni olarak MCX556A-ECAT seçildi.
Mimari, PCIe 3.0/4.0 x16'yı destekleyen çift portlu bir 100GbE adaptörü olan MCX556A-ECAT Ethernet adaptör kartı üzerine kurulmuştur. MCX556A-ECAT ConnectX adaptör PCIe ağ kartı olarak dağıtılan bu kart, minimum anahtar değişikliğiyle mevcut yaprak-omurga topolojisinde RoCE v2'yi etkinleştirdi. Temel dağıtım adımları şunları içeriyordu:
- 40 depolama düğümünde ve 150 işlem düğümünde eski 25GbE adaptörlerinin MCX556A-ECAT ile değiştirilmesi.
- Donanım boşaltmalarının etkinleştirilmesi: NVMe over Fabrics (NVMe-oF), GPUDirect RDMA ve veri bütünlüğü için T10-DIF.
- Kayıpsız RoCE iletimi için Öncelik Akış Kontrolü (PFC) ve Gelişmiş İletim Seçimi (ETS) yapılandırması.
- Mevcut Mellanox Spectrum anahtarları ve QSFP28 optikleri ile MCX556A-ECAT uyumlu durumunun doğrulanması.
Tüm dağıtım, işlem iş yükleri için canlı geçiş kullanılarak sıfır kesintiyle iki hafta sonu sürdü.
Dağıtım sonrası ölçümler, temel metriklerde dramatik iyileşmeler ortaya koydu. Aşağıdaki tablo, öncesi/sonrası karşılaştırmasını özetlemektedir:
| Metrik | Önce (25GbE TCP/IP) | Sonra (RoCE ile MCX556A-ECAT) | İyileşme |
|---|---|---|---|
| Depolama düğümü CPU kullanımı | 62% | 18% | ↓ %71 |
| Ortalama gecikme (4K rastgele okuma) | 450 µs | 42 µs | ↓ %90,7 |
| Toplu küme verimi | 38 Gb/s | 172 Gb/s | ↑ %353 |
| Yedekleme penceresi süresi | 8,5 saat | 1,8 saat | ↓ %79 |
Sayıların ötesinde, mühendislik ekibi RDMA'nın titremeyi önemli ölçüde azalttığını ve daha önce yapay zeka eğitim kontrol noktalarını etkileyen "kuyruk gecikmesi" ani yükselmelerini ortadan kaldırdığını bildirdi. Olgun bir MCX556A-ECAT Ethernet adaptör kartı çözümü olarak kart, yerleşik telemetri ve tıkanıklık bildirimi aracılığıyla sorun gidermeyi de basitleştirdi. MCX556A-ECAT fiyatını performans artışlarına karşı değerlendiren kuruluşlar için müşteri, yalnızca CPU çekirdek tasarrufları ve daha hızlı toplu iş tamamlama yoluyla dokuz ay içinde yatırım getirisini elde etti. Adaptör artık birden fazla kanal ortağı aracılığıyla MCX556A-ECAT satılık durumda, bu da bu performans seviyesini orta düzey işletmeler için de erişilebilir hale getiriyor.
Dağıtım, MCX556A-ECAT ürününün vaatlerini yerine getirdiğini kanıtlıyor: mikrosaniye altı RDMA gecikmesi, ciddi CPU boşaltması ve doğrusal verim ölçeklendirmesi. Dağıtılmış veritabanları, HPC simülasyonları veya NVMe-oF depolama çalıştırıyor olun, NVIDIA Mellanox MCX556A-ECAT geleceğe dönük bir temel sunar. 100GbE veri merkezi omurgaları için yeni standart haline geldikçe, bu adaptör etrafında inşa edilen çözümler eski TCP/IP yığınlarından daha iyi performans göstermeye devam edecektir. Ayrıntılı planlama için resmi MCX556A-ECAT veri sayfasına bakın veya özel ortamınız için MCX556A-ECAT uyumlu yapılandırmaları doğrulamak üzere çözüm mimarlarıyla görüşün.

