低成本AI訓練?傳DeepSeek實際研發支出高達5億美元

記者 鄧天心/綜合報導

中國AI新創DeepSeek近期因其模型訓練成本低廉的說法引發熱議,然而,最新分析顯示,其硬體支出遠超市場預期,實際投資規模可能高達5億美元(約新台幣160億元),根據半導體研究機構SemiAnalysis最新報告,DeepSeek背後的資金來自中國知名對沖基金幻方量化(High-Flyer),該基金於2023年5月創立DeepSeek,並在更早的2021年,即美國對華科技出口管制生效前,已經購買1萬顆Nvidia A100GPU,為後續發展奠定基礎。

DeepSeek的GPU投資規模驚人,總支出已超過5億美元。圖片來源:DeepSeek官網

更多新聞:黃仁勳的最愛商管書:《創新的兩難》 教他什麼讓輝達邁向成功?

DeepSeek 燒錢驚人!加上伺服器跟設備總支出高達16億美元

DeepSeek的GPU投資規模驚人,總支出已超過5億美元,而整體伺服器與AI設備的資本支出更高達16億美元。其中,營運成本估計為9.44億美元,該公司擁有高度自主的AI運算資源,與一般依賴雲端供應商的AI新創形成強烈對比,此外,DeepSeek透過北京大學、浙江大學等中國頂尖學府招募AI人才,而公司內部AI研究員的薪資也超過130萬美元,遠高於中國其他AI公司。

DeepSeek的AI模型「V3」因宣稱訓練成本僅557.6萬美元而受到關注,該模型擁有6,710億個參數,使用2,048顆NvidiaH800GPU,耗時2個月訓練完成,然而,SemiAnalysis強調,這一成本僅涵蓋預訓練GPU運算,並未納入研發、基礎架構、資料清理、消融實驗(AblationExperiment)等成本。

相較之下,Meta旗下的Llama3模型使用4,050億個參數訓練,運算資源達3,080萬GPU小時,規模是DeepSeekV3的11倍,並採用16,384顆H100GPU訓練54天,分析報告也指出,DeepSeek能夠獲得大量AI運算資源,與美國對華晶片出口管制的時間滯後(Lag)有關,美國智庫蘭德公司(RAND)研究員LennartHeim指出,出口限制的真正影響尚未完全顯現,當DeepSeek需要升級數據中心或擴展計算規模時,才會遭遇更大挑戰,目前,Nvidia為中國市場推出的GPU型號已受限,H100系列的變體僅剩H20可供應中國,這將對DeepSeek這類AI企業的長期發展產生深遠影響。

儘管受到硬體限制,DeepSeek在開放權重AI模型領域的表現仍被外界高度評價,甚至被視為超越Meta Llama與法國AI新創MistralAI的有力競爭者,DeepSeek旗下另一款AI模型「R1」,被認為效能可媲美OpenAI先進模型「o1」,但消耗資源遠少於競爭對手。有業界觀察者認為,R1的GPU叢集應比V3更強大,未來有機會在AI領域持續突破,然而,面對美國持續加強出口管制,DeepSeek的算力來源與未來成長潛力仍充滿變數。

瀏覽 314 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button