輝達HGX與DGX各有擅長 視需求選最佳方案
編譯/莊閔棻
相信許多人都考慮要採用半導體巨頭輝達(Nvidia)的人工智慧(AI)解決方案,但卻礙於 DGX 和 HGX 的差異,而不知該從何下手。DGX是一種標準化、統一化且整合的超級運算解決方案,旨在為大型企業提供快速部署的AI運算解決方案,而HGX則提供更大的客製化和靈活性,為原始設備製造商(OEM)提供自訂的硬體解決方案。
Nvidia DGX:最初的超級運算平台
輝達的DGX 平台被譽為原創超級運算平台,為尋求深度學習、生成式AI和數據分析的龐大運算能力的企業客戶,提供標準化和整合的解決方案。DGX 平台將多達 8 個 Tensor Core GPU 與輝達的 AI 軟體整合在一起,為加速運算和下一代 AI 應用提供動力,其本質上是一個機架式機箱,透過 NVLink 連接的 4 或 8 個 GPU、高階 x86 CPU ,及一堆輝達的高速網路硬體,單一 DGX B200 系統能夠達到 72 petaFLOPS 的訓練和 144 petaFLOPS 的推理表現。
更多新聞:英特爾面臨創新危機 中國禁令加劇挫折
該公司目前提供基於「Hopper」(DGX H100)和「Blackwell」(DGX B200)的系統,這些系統都經過優化,適用於AI工作負載。此外,顧客還可以選擇更高級的解決方案,如DGX SuperPOD(搭載DGX GB200系統),該解決方案整合了36個水冷的輝達GB200 Grace Blackwell Superchips,包括36個Nvidia Grace CPU和72個Blackwell GPU。這個龐大的設置包括透過Nvidia Quantum InfiniBand連接多個機架,讓公司能夠快速擴展規模。
Nvidia HGX:建造自己的超級電腦
雖然輝達 HGX和輝達DGX系統很像,但在DGX在自主性上則更勝一籌。簡單來說,對於尋求客製化超級計算解決方案的代工生產製造商(OEM),輝達的HGX 不但提供與基於 Hopper 和 Blackwell 的 DGX 系統相同的峰值性能,還允許 OEM 根據需要進行調整。如,客戶可以根據需要修改 CPU、RAM、儲存和網路配置。輝達提供 x4 和 x8 GPU 配置的Nvidia HGX,HGX B200 系統具有高達 144 petaFLOPS 的效能,可增強企業的AI和 HPC 運算,該產品或解決方案具有通用和靈活性,能夠滿足不同行業的需求,進而擴大了它的受眾範圍和市場潛力。
DGX 提供標準化的超級計算解決方案,而 HGX 則提供更大的客製化彈性。DGX 專注於大型企業的集群解決方案,例如 DGX SuperPOD,而 HGX 則是專為使 OEM 獲得更高的利潤而設計。總的來說,DGX主要專注於標準化的解決方案,適用於大型企業,而HGX則針對OEM市場,並更注重客製化的解決方案。
參考資料:xda-developers
瀏覽 7,008 次