Yapay zeka eğitim hızlandırma çözümü: Mellanox DPU ve GPU kümelerinin entegrasyonu
September 28, 2025
Yapay zeka modelleri boyut ve karmaşıklık açısından katlanarak büyüdükçe, geleneksel veri merkezi mimarileri sınırlarına ulaşıyor.Yapay zeka eğitimiverimliGPU ağlamaBu çözüm kısacası, stratejik entegrasyonunMellanox DPU(Data Processing Unit) GPU kümelerindeki kritik engelleri ele alır, barındırma CPU yükünü düşürür ve büyük ölçekli AI iş yükleri için yeni ölçeklenebilirlik ve verimlilik düzeylerini açar.
Trilyonluk parametreler modellerinin çağı, GPU kümesini modern AI'nın motoru olarak sağlam bir şekilde kurdu.makine sunucusunun CPU'su veri hareketiyle bunalır.Ağ, depolama I/O ve güvenlik protokollerini içeren bu üst maliyet,Bir sunucunun gerçek AI eğitim süreci için çok gerekli olan CPU döngüsünün %30'undan fazlasını tüketebilirBu verimsizlik doğrudan eğitim süresini ve sahip olma toplam maliyetini (TCO) arttırır.
Büyük ölçekli üretimdeki ana engellemeYapay zeka eğitimiArtık sadece çiğ FLOPS değil; bu veri boru hatlarında sistemik verimsizlik.
- CPU açlığı:Anahtar CPU'lar ağ yığınlarını (TCP / IP), depolama sürücüleri ve sanallaştırmayı yönetmekle sıkışır ve AI çerçevesi için daha az kaynak bırakır.
- I/O sıkışıklıkları:Geniş veri kümelerinin depolamadan GPU belleğine taşınması, PCIe otobüsünde ve ağında tıkanıklık yaratır ve GPU dinlenme süresine yol açar.
- Güvenlik masrafları:Çoklu kiracı ortamlarında, şifreleme ve güvenlik politikalarını uygulamak ana CPU'ya daha fazla vergi koyar.
- VerimsizGPU ağlama:Toplu iletişim işlemleri (All-Reduce gibi) yazılımda işlenir, bu da senkronize eğitimi yavaşlatan gecikme ve gerginlik yaratır.
Bu zorluklar, pahalı GPU'ların verileri beklediği bir senaryo yaratır ve AI altyapısının genel kullanımını ve ROI'sini önemli ölçüde azaltır.
BuMellanox DPU(şimdi NVIDIA'nın BlueField ürün serisinin bir parçası) bu altyapı sıkıntılarını gidermek için özel olarak tasarlanmış devrimci bir işlemcidir.Sadece bir ağ arayüz kartı (NIC) değil, güçlü Arm çekirdekleri ve özel hızlandırma motorlarını içeren tamamen programlanabilir bir sistem-bir-çip (SoC)DPU'ları her sunucuya yerleştirerek, kuruluşlar donanım hızlandırılmış altyapı katmanı oluşturabilir.
- Altyapı yüklenmesi:BuMellanox DPUTCP/IP, NVMe over Fabrics (NVMe-oF), şifreleme ve güvenlik duvarı fonksiyonlarını içerir.Bu, yalnızca AI uygulaması için CPU çekirdeklerini "özgürleştirir"..
- Hızlı İletişim:DPU, GPU'ların ağdaki diğer GPU'ların belleğine çok düşük gecikme ile doğrudan erişmelerini sağlayan donanım yüklenmemiş Uzaktan Doğrudan Bellek Erişimi (RDMA) özelliğine sahiptir.Yüksek performanslı bir temel taşGPU ağlama.
- Geliştirilmiş ölçeklenebilirlik:Ev sahibi CPU'nun altyapı görevlerinden kurtulması ile, bir kümenin ölçeklendirilmesi CPU genel masraflarında doğrusal bir artışa yol açmaz.Bu, daha verimli ve öngörülebilir ölçeklendirmeyi büyük düğüm sayımlarına izin verir.
- Sıfır Güven GüvenliğiDPU, donanımdan izole edilen root-of-trust, anahtar yönetimi ve güvenlik uygulamalarını DPU'nun kendisinde izole bir ortamda çalıştırma yeteneği sağlayarak "sıfır güven" güvenlik modelini sağlar.Ev sahibinden ayrı.
BirleştirmeMellanox DPUAşağıdaki veriler endüstri referanslarına ve gerçek dünyadaki uygulamalara dayanmaktadır:
| Metrik | Geleneksel sunucu (CPU merkezli) | Mellanox DPU'lu sunucu | Geliştirme |
|---|---|---|---|
| Yapay zeka için mevcut CPU çekirdekleri | % 70 | >95% | ~36% Artış |
| Tüm-Kısaltma Gecikme (256 GPU) | ~500 μs | ~180 μs | % 64 Azalma |
| Depolama I/O Verimi | ~12 GB/s | ~40 GB/s | 233% Artış |
| Toplam Eğitim Süresi (BERT-Large) | ~60 Saat | ~ 42 saat | % 30 indirim |
Bu performans kazanımları doğrudan iş değerine dönüşür: daha hızlı modelleme süresi, daha düşük bulut/bilgisayar maliyetleri,ve aynı altyapı ayak izi içinde daha karmaşık sorunları ele alma yeteneği.
Yapay zekâ'nın yörüngesi açıktır: modeller büyümeye devam edecek ve kümeler daha da dağıtılacak.Altyapı sorununa daha fazla CPU atmanın geleneksel yaklaşımı sürdürülemez..Mellanox DPUGPU kümelerinin benzeri görülmemiş performans ve verimlilik düzeylerine ulaşmasını sağlayan özel, hızlandırılmış bir altyapı düzeni oluşturarak temel bir mimari değişikliğini temsil ediyor.Yapay zekâ araştırma ve geliştirmede rekabetçi bir avantaj elde etmek isteyen herhangi bir kuruluş için kritik bir bileşen..

