NVIDIA Mellanox MCX556A-ECAT Teknik Çözüm: Düşük gecikme taşımacılığı ve sunucu verimi optimizasyonu için RDMA / RoCE
April 23, 2026
Bu teknik beyaz kitap ağ mimarları, satış öncesi mühendisler ve operasyon yöneticileri için tasarlanmıştır.NVIDIA Mellanox MCX556A-ECATsunucu adaptörü ve RDMA ve RoCE teknolojisini kullanarak yüksek performanslı, düşük gecikme verimli veri merkezi ağları oluşturmak için sistematik bir çerçeve sağlar.
Dağıtılmış depolama (Ceph, Lustre), bellek içi veritabanları (Redis, Aerospike) ve yapay zeka eğitim çerçeveleri de dahil olmak üzere modern veri merkezi iş yükleri hem yüksek işlem verimi hem de milisaniye altında gecikme gerektirir.Geleneksel TCP/IP yığınları önemli bir CPU üst masrafı getirir, bağlam değiştirme ve veri kopyalama, ağ hızları 100Gb/s'ye ve sonrasına ulaştıkça engeller haline gelir.CPU yüklenmesi (ev sahibi işlemcinin kullanımını azaltmak), ultra düşük ve öngörülebilir gecikme (özellikle kuyruk gecikmesi için), depolama protokolleri için kayıpsız nakliye (NVMe-oF, iSER) ve mevcut Ethernet altyapısıyla sorunsuz entegrasyon.MCX556A-ECATBu gereksinimlerin her birini doğrudan ele alır.
Önerilen mimari, RoCE (RDMA over Converged Ethernet) taşımacılığı için yapılandırılmış kayıpsız Ethernet ile iki katmanlı yaprak omurilik topolojisini benimser.Tüm hesaplama ve depolama düğümleriMCX556A-ECAT Ethernet adaptör kartı, 100GbE QSFP28 bağlantıları aracılığıyla yaprak anahtarlarına bağlanır. Omurilik anahtarları, engellemeyen çekirdek bant genişliği sağlayarak yaprak katman trafiğini toplar. Ana mimari ilkeler şunlardır:
- Kontrol ve veri düzlemlerinin ayrılması:RoCEv2, RDMA'yı UDP / IP'de kapsıyor ve Katman 3 sınırları boyunca yönlendirmeyi sağlıyor.
- Önemli Akış Kontrolü (PFC):RDMA trafik sınıfları için kayıpsız davranış sağlar.
- Geliştirilmiş Transmission Selection (ETS):Gecikmeye karşı hassas akışlar için bant genişliği garanti eder.
- Trafik sıkışıklığı bildirimi:DCQCN (Data Center Quantized Congestion Notification) kullanılarak uçtan uca akış kontrolü.
Mimarlık, hem çıplak metal hem de sanallaştırılmış ortamları desteklerken, SR-IOV sanal fonksiyonların sanal sanallara doğrudan geçişini sağlar.
BirMCX556A-ECAT ConnectX adaptörü PCIe ağ kartı, bu adaptör çözümün temel taşı olarak hizmet eder. Donanım tabanlı offload motoru çekirdeği atlar ve doğrudan hafızadan hafızaya veri aktarımını sağlar. Kritik özellikleri şunlardır:
| Özellik | Fayda |
|---|---|
| Çift portlu 100GbE (toplam 200Gb/s'ye kadar) | Bant genişliği aç iş yükleri için doğrusal işlem ölçeği |
| RoCEv2 desteği ile RDMA | Mikrosaniye altında gecikme, sıfır CPU kopyası |
| NVMe-oF ve GPUDirect boşaltmalar | Hızlı depolama ve yapay zeka eğitimi boru hatları |
| Donanım T10-DIF, IPsec, TLS | Data bütünlüğü ve güvenliği |
| SR-IOV, VirtIO hızlandırması | Sanal ortamlarda neredeyse yerel performans |
Ekipler içinMCX556A-ECAT veri sayfasıveMCX556A-ECAT özellikleri, adaptörün hem PCIe 3.0 hem de 4.0 (x16)'yı desteklediğini, mevcut sunucularla geriye dönük uyumluluğu sağlayarak bir sonraki nesil platformlara geçiş yolu sunduğunu unutmayın.
Orta boyutlu bir kümeler için (200 düğümüne kadar) bir referans dağıtım aşağıda tanımlanmıştır.MCX556A-ECATher sunucunun PCIe yuvasına kurulmuştur ve redundansa ve bant genişliği toplanmasına yönelik çift port bağlantısı vardır.
- Fiziksel topoloji:İki omurga anahtarı, dört yaprak anahtarı. Her yaprak tüm omurgalara bağlanır (tam ağ). Her sunucu iki yaprağa bağlanır (aktif-aktif bağlama).
- RoCE yapılandırması:RoCE trafiği için özel VLAN. DSCP tabanlı QoS işareti (örneğin, RDMA için DSCP 46). PFC öncelik 3'te etkinleştirildi.
- Buffer yönetimi:Kayıpsız baş boşluğu tamponlarını dönüş süresi ve bağlantı mesafesine göre her port için yapılandırın.
- Adres:RDMA arayüzleri için statik IP atamaları veya DHCP rezervasyonları kullanın.
200 düğümün ötesine ölçeklendirme: Bir süper omurilik katmanını tanıtın ve BGP-EVPN'yi katman 2 uzantısı için birden fazla kapsülde dağıtın.MCX556A-ECAT uyumluOptik ve kabloları nitelikli satıcılardan (örneğin Mellanox, FS.com) değerlendirirken.MCX556A-ECAT fiyatıBüyük ölçekli tedarikler için, anahtarlar ve optiklerle paket fiyatlandırmayı düşünün.
RoCE tabanlı bir kumaşın etkili çalışması proaktif izleme ve özel araçlar gerektirir:
- Performans izleme:Kullanımı
mlxlinkveettoolbağlantı istatistikleri için (BER, FEC hataları).MCX556A-ECAT Ethernet adaptör kart çözümüPCM (Performance Counters Monitor) aracılığıyla telemetri içerir. - Trafik sıkışıklığı tespiti:ECN işaretlenmiş paketleri ve PFC duraklama çerçevelerini anahtar telemetriyi kullanarak izleyin (örneğin Mellanox SNMP MIB'leri).
- Firmware ve sürücü yönetimi:NVIDIA OFED'den en son sürümlere düzenli olarak güncelleyin.
MstflintFirmware doğrulama için. - Genel sorun giderme:RDMA bağlantı hataları için, MTU tutarlılığını, VLAN üyeliğini ve DSCP-CoS haritalamalarını doğrulayın.
İbdev2netdevveRdma bağlantı gösterisiAygıt durumunu kontrol etmek için. - Optimizasyon ipuçları:DCQCN parametrelerini (alfa, beta, hız artış zamanlayıcısı) iş yüküne göre ayarlayın. Depolama iş yükleri için tamamlama kuyruğu derinliğini artırın. Yapay zeka eğitimi için GPUDirect RDMA ve pin belleğini etkinleştirin.
Kapasite planlaması için,MCX556A-ECAT veri sayfasıSıcaklık ve güç özellikleri için (tipik 15W).MCX556A-ECAT satılıyor.Yedek stoklama programları da dahil olmak üzere yetkili distribütörler aracılığıyla.
BuMCX556A-ECATÜç boyutta ölçülebilir bir değer sağlar:performansı(Uygulama gecikmesinde% 90'a kadar azaltma, 4 kat verim artışı),verimlilik(CPU yükünün %70'i, Gb/s başına daha düşük güç) veToplam mülkiyet maliyeti(konsolüde altyapı, azaltılmış sunucu sayısı, daha düşük soğutma maliyetleri).NVIDIA Mellanox MCX556A-ECATRoCE tabanlı bir çözümün bir parçası olarak, iş yükü yoğunluğuna bağlı olarak 6-12 ay içinde ROI bekleyebilirsiniz.Bu adaptör kanıtlanmış bir, ölçeklenebilir bir temel.MCX556A-ECAT veri sayfasıve doğrulaMCX556A-ECAT uyumluDeğiştirici satıcınızla yapılandırma.

