META：Llama 3模型訓練每3小時頻繁故障 GPU問題成主因

2024-08-01

據科技媒體 tomshardware 報導，Meta (META-US) 最近發布了一項研究，詳細介紹了在包含 16,384 個 Nvidia(NVDA-US) H100 80GB GPU 的叢集上運行的 Llama 3 405B 模型訓練。訓練運行持續了 54 天，在此期間群集遇到了 419 個意外組件故障，平均每 3 個小時發生一次故障。

報導稱，GPU 或其板載 HBM3 記憶體占了近一半的故障案例，凸顯 GPU 的重要性與脆弱性。多達 16,384 個 GPU 訓練的規模和同步特性，使其容易發生故障。如果未能正確緩解故障，單一 GPU 故障可能會中斷整個訓練作業，從而需要重新啟動。

正如古老的超級計算格言所說，大規模系統唯一確定的就是失敗。超級電腦是極其複雜的設備，每隔幾個小時就會出現故障，這是很正常的，開發人員的主要技巧是確保系統保持運行。

Llama 3 團隊表示，他們維持了 90% 以上的有效訓練時間。

在為期 54 天的預訓練快照中，出現了 466 次工作中斷，其中 47 次是計畫中斷，419 次是意外中斷。計畫內的中斷是由於自動化維護造成的，而意外的中斷則主要源自於硬體問題。 GPU 問題是最大的一類，占意外中斷的 58.7%。只有三起事件需要大量人工干預，其餘的由自動化管理。

在 419 個意外中斷中，148 個 (30.1%) 是由各種 GPU 故障 (包括 NVLink 故障) 引起的，而 72 個 (17.2%) 是由 HBM3 記憶體故障引起的。

雖然 GPU 是最重要的組件，但也很脆弱，但 41.3% 的意外中斷是由多種因素造成的，包括軟體錯誤、網路電纜和網路適配器。

（本文已獲鉅亨網同意授權刊出）

瀏覽 365 次

覺得不錯的話就分享出去吧！

標籤

2024-08-01

META：Llama 3模型訓練每3小時頻繁故障 GPU問題成主因

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

推薦工作

延伸閱讀

「瘦胖子」心血管死亡風險比肥胖者高52% 我是MONW族群嗎？

長高不是等來的！掌握「4大後天因子」 助攻孩子突破身高遺傳極限

黃仁勳一句話讓量子股重摔！微軟卻說快成功 量子電腦要等多久？

長期吃素恐得「可逆性失智」 醫曝缺乏維生素B12與記憶力的驚人連結

繼吉卜力後！ChatGPT再推「Monday」語音功能 超厭世女聲很有感

川普擬課25%關稅 蘇姿丰直言：不只衝擊AMD 全球PC手機都會變貴

發佈留言 取消回覆

長高不是等來的！掌握「4大後天因子」助攻孩子突破身高遺傳極限

黃仁勳一句話讓量子股重摔！微軟卻說快成功量子電腦要等多久？

長期吃素恐得「可逆性失智」醫曝缺乏維生素B12與記憶力的驚人連結

繼吉卜力後！ChatGPT再推「Monday」語音功能超厭世女聲很有感

川普擬課25%關稅蘇姿丰直言：不只衝擊AMD 全球PC手機都會變貴

發佈留言取消回覆