蘋果新增2款DCLM模型　宣稱不會輸給對手Gemma

2024-07-23

記者／竹二

繼4月公布可以在裝置上執行的小語言模型OpenELM之後，蘋果近日又公布了2款小規模開源人工智慧模型，分別是14億及70億參數的DCLM模型，號稱效能不會輸給競爭對手，並點名Llama 3、Gemma以及Mistral，同時還可以節省訓練運算資源。

DCLM-7B模型資源耗損少40%

據了解，這2款模型是由蘋果DataComp for Language Models（DCLM）的團隊開發，並在Hugging Face平台上開源公布。根據外媒Venturebeat報導，DataComp專案成員來自蘋果、華盛頓大學、以色列台拉維夫大學，以及豐田研究院。

更多新聞：OpenAI Altman承認 ChatGPT需要新命名系統

第一款模型是DCLM-7B，是70億參數的模型，以2.6兆字符資料訓練而成。根據蘋果的說法，他們和State of the Art（SoTA）模型像是Mistral、Llama 3、Gemma、阿里巴巴Qwen-2、微軟Phi-3與開源模型MAP-Neo相比，DCLM-7B在多語理解測試中，最後的成果和Map-Neo相較效能相同，但運算資源耗損少了40%。

DCLM-1B效能優於SmolLM

若是和私有模型相較，DCLM-7B準確性得分64%和Mistral-7B-v0.3 63%及Google Gemma的64%相比差不多，比起Llama 3-8B的66%略低，但蘋果表示，他們的模型耗能低了6.6倍。至於另一款DCLM-1B模型參數量為14億，蘋果官方宣稱，在Alpaca bench的測試中，效能優於Hugging Face公布的小模型SmolLM。蘋果最終將DCLM模型框架、高品質訓練資料集DCLM-BASELINE，以及預訓練方法都開源公布在相關的專案網站。

瀏覽 464 次

覺得不錯的話就分享出去吧！

標籤

2024-07-23

蘋果新增2款DCLM模型　宣稱不會輸給對手Gemma

DCLM-7B模型資源耗損少40%

DCLM-1B效能優於SmolLM

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

DCLM-7B模型資源耗損少40%

DCLM-1B效能優於SmolLM

推薦工作

延伸閱讀

輝達H20晶片差點不能賣給中國！靠黃仁勳一場晚宴解套 發生了什麼事？

台積電居「AI晶片碳排」之冠！綠色和平籲2030年全面用綠電

Google Cloud Next 2025 5大亮點一次看！推出新AI晶片 比超級電腦快24倍

揚智穩健應對美國關稅衝擊 布局新興市場挹注營收動能

因應美國關稅政策搖擺 經濟部提「短中長期」計畫

企業如何因應美國關稅大刀？KPMG會計師給台商建議

發佈留言 取消回覆

輝達H20晶片差點不能賣給中國！靠黃仁勳一場晚宴解套發生了什麼事？

Google Cloud Next 2025 5大亮點一次看！推出新AI晶片比超級電腦快24倍

揚智穩健應對美國關稅衝擊布局新興市場挹注營收動能

因應美國關稅政策搖擺經濟部提「短中長期」計畫

發佈留言取消回覆