Teknik Çözüm: Mellanox ile RDMA/RoCE Düşük Gecikme ve Verimlilik Optimizasyonuna Ulaşmak
March 13, 2026
Modern veri merkezleri, dağıtılmış veritabanları, yüksek performanslı bilgi işlem (HPC) ve yapay zeka eğitim kümeleri gibi gecikmeye duyarlı uygulamalar için daha yüksek performans sunma konusunda sürekli bir baskı altındadır. Geleneksel TCP/IP ağları, önemli CPU yükü oluşturarak uygulama ölçeklenebilirliğini sınırlayan ve yanıt sürelerini artıran darboğazlar yaratır. Altyapılarını modernize etmek isteyen kuruluşlar için temel gereksinim açıktır: maliyetli mimari revizyonlar olmadan gecikmeyi azaltmak ve sunucu verimini artırmak.
Çözüm, Converged Ethernet (RoCE) üzerinden RDMA (Remote Direct Memory Access) benimsemektir. Bu teknoloji, işletim sistemi çekirdeğini atlayarak doğrudan bellekten belleğe veri aktarımını sağlar, CPU kaynaklarını serbest bırakır ve gecikmeyi en aza indirir. Bu dönüşümün kalbinde ağ arayüz kartı (NIC) yer alır. Mellanox'tan (NVIDIA) gelen MCX631432AN-ADAB, RoCE özellikli kumaşlar için sağlam bir temel sağlayarak bu talepleri karşılamak üzere özel olarak tasarlanmıştır.
Önerilen mimari, optimal RoCEv2 performansı için bir ön koşul olan kayıpsız bir Ethernet ortamı için tasarlanmış bir yaprak-omurga (leaf-spine) kumaşıdır. Tasarım, karmaşıklığı ve maliyeti azaltmak için bilgi işlem ve depolama trafiğini birleşik, yüksek hızlı bir kumaş üzerinden entegre eder.
- Omurga Katmanı: Yüksek kapasiteli 100GbE anahtarlar, tüm yaprak anahtarlar arasında engelsiz bağlantı sağlayarak her-yöne düşük gecikmeli yollar sağlar.
- Yaprak Katmanı: Sunuculara ve depolama düğümlerine bağlanan 25GbE aşağı bağlantılara sahip Raf Üstü (ToR) anahtarlar. Bu anahtarlar, kayıpsız bir kumaşı sürdürmek için Öncelik Akış Kontrolü (PFC) ve Açık Tıkanıklık Bildirimi (ECN) ile yapılandırılmıştır.
- Sunucu Katmanı: Her sunucu, çift portlu 25GbE SFP28 adaptörü olan NVIDIA Mellanox MCX631432AN-ADAB ile donatılmıştır. Bu, ağ bağlama veya depolama ve bilgi işlem trafiği için ayrı yollara izin verir.
Bu tasarım, MCX631432AN-ADAB Ethernet adaptör kartının RoCE trafiğinin paket kaybı olmadan akabileceği bir ortamda çalışmasını sağlar, bu da yüksek verim ve düşük gecikmeyi sürdürmek için kritik öneme sahiptir.
Mellanox'tan (NVIDIA) gelen MCX631432AN-ADAB, tüm çözümü etkinleştiren kritik uç noktadır. ConnectX-6 Lx ailesinin bir üyesi olarak, 25GbE form faktörüne kurumsal düzeyde özellikler getirir. Birincil rolü, hem bilgi işlem hem de depolama trafiği için MCX631432AN-ADAB Ethernet adaptör kartı çözümü olarak hizmet etmek ve ağ görevlerini sunucu CPU'sundan boşaltmaktır.
Adaptörün temel teknik katkıları şunlardır:
- Donanım Boşaltmaları: Kart, taşıma, kapsülleme ve tıkanıklık kontrolü dahil olmak üzere RoCE protokolünün tüm yönlerini donanımda işler. Bu, RDMA işlemlerinin neredeyse sıfır CPU döngüsü tüketmesini sağlar.
- Çift Port Esnekliği: Çift 25GbE portu, aktif/bekleme hatası devralma için yapılandırılabilir veya trafik türlerini ayırmak için kullanılabilir. Örneğin, bir port ön uç Ethernet trafiğini işlerken, diğeri RoCE kullanarak arka uç depolama trafiğine adanabilir, bu da verimi ve güvenliği en üst düzeye çıkarır.
- PCIe 3.0 x16 Ana Bilgisayar Arayüzü: Her iki 25GbE portunu aynı anda çalıştırmak için yeterli bant genişliği ile MCX631432AN-ADAB ConnectX-6 Lx çift portlu 25GbE SFP28, uygulama performansını sınırlayan dahili bir darboğaz olmamasını sağlar.
MCX631432AN-ADAB'ın dağıtımı, ağ kumaşının ve sunucu yapılandırmasının dikkatli bir planlamasını gerektirir. Aşağıdaki adımlar, yüksek performanslı bir küme için tipik bir dağıtımı özetlemektedir:
- Kumaş Hazırlığı: Dağıtımdan önce, anahtarları RoCE'yi destekleyecek şekilde yapılandırın. Bu, RoCE trafik sınıfı için PFC'yi etkinleştirmeyi ve ECN tabanlı tıkanıklık yönetimi uygulamayı içerir. Bu, adaptörün en iyi performansı göstermesi için gereken kayıpsız ortamı oluşturur.
- Sürücü ve Firmware Kurulumu: Tam özellik desteğini sağlamak için en son NVIDIA WinOF-2 sürücülerini (Windows için) veya MLNX_OFED'i (Linux için) yükleyin. Optimal RoCE performansı ve uyumluluğu için MCX631432AN-ADAB'daki firmware'in güncel olduğunu doğrulamak kritiktir.
- Kümenin Ölçeklendirilmesi: Mimari, her biri kendi MCX631432AN-ADAB'ına sahip daha fazla sunucu düğümü eklenerek yatay olarak ölçeklenir. Engellenmeyen yaprak-omurga kumaşı, eklenen düğümlerin mevcut düğümlerin performansını düşürmemesini sağlar. Daha büyük dağıtımlar için, yaprak ve omurga anahtarları arasında bağlantı toplama grupları (LAG'ler) kullanılabilir.
Bir veritabanı kümesi için tipik bir topoloji, raf içi gecikmeyi en aza indirmek için birincil ve çoğaltma sunucularını aynı yaprak anahtarına bağlamayı içerir. Her sunucu, yedeklilik için iki ayrı yaprak anahtarına bağlanmak üzere çift portlu adaptörünü kullanır.
Dağıtıldıktan sonra, performansı sürdürmek proaktif izleme ve ayarlama gerektirir. MCX631432AN-ADAB, bu amaçla kapsamlı telemetri sağlar.
- Temel Metriklerin İzlenmesi: Port sayaçlarını, bağlantı hatalarını ve RDMA trafik istatistiklerini izlemek için `mlxstat` ve `ethtool` gibi araçları kullanın. PFC duraklatma çerçevelerini izlemek esastır; yüksek bir sayı, RoCE performansını düşürecek kayıplı bir kumaşı gösterir.
- Firmware ve Sürücü Güncellemeleri: Güncellemeleri düzenli olarak kontrol edin. Yeni firmware genellikle gecikmeyi daha da azaltabilecek ve üst anahtarlarla uyumluluğu iyileştirebilecek performans optimizasyonları ve hata düzeltmeleri içerir.
- Performans Ayarı: En zorlu gecikme gereksinimlerine sahip ortamlar için, kesme moderasyonunu ve arabellek boyutlarını ince ayarlamak artımlı kazançlar sağlayabilir. Adaptörün esnekliği, mimarların belirli iş yüklerine (örneğin, HPC'ye karşı sanallaştırma) göre ayarları yapmalarına olanak tanır.
Bağlantı sorunlarını gidermek için, SFP28 modüllerinin MCX631432AN-ADAB uyumlu olduğunu doğrulamak ilk adımdır. NVIDIA onaylı optikleri kullanmak, güvenilir bağlantı kurulumunu ve performansı sağlar.
Mellanox'tan (NVIDIA) gelen MCX631432AN-ADAB, yüksek performanslı, düşük gecikmeli bir ağ kumaşı uygulamak için açık ve etkili bir yol sunar. Gelişmiş RoCE boşaltma yeteneklerinden yararlanarak, kuruluşlar önemli ölçüde azaltılmış CPU yükü ve önemli ölçüde artırılmış sunucu verimi olmak üzere ikili faydaları elde edebilirler. Ayrıntılı MCX631432AN-ADAB özellikleri ve MCX631432AN-ADAB veri sayfası, en zorlu iş yüklerini işleme yeteneğini doğrulamaktadır.
Donanım yenilemesini değerlendiren BT yöneticileri ve ağ mimarları için, bu çözümün sunduğu performans artışları doğrudan iş değerine dönüşür: daha hızlı işlem işleme, daha verimli depolama erişimi ve iyileştirilmiş toplam sahip olma maliyeti. Veri talepleri artmaya devam ettikçe, MCX631432AN-ADAB'ı dağıtmak, ağ altyapısının bir darboğaz değil, bir hızlandırıcı olmasını sağlar. Ayrıntılı fiyatlandırma bilgileri veya MCX631432AN-ADAB fiyatını ve kullanılabilirliğini kontrol etmek için lütfen NVIDIA temsilcinizle görüşün.

