蘋果新增2款DCLM模型 宣稱不會輸給對手Gemma

記者/竹二

繼4月公布可以在裝置上執行的小語言模型OpenELM之後,蘋果近日又公布了2款小規模開源人工智慧模型,分別是14億及70億參數的DCLM模型,號稱效能不會輸給競爭對手,並點名Llama 3、Gemma以及Mistral,同時還可以節省訓練運算資源。

蘋果公布2款小規模開源人工智慧 DCLM模型。
蘋果公布2款小規模開源人工智慧 DCLM模型。(圖/123RF)

DCLM-7B模型資源耗損少40%

據了解,這2款模型是由蘋果DataComp for Language Models(DCLM)的團隊開發,並在Hugging Face平台上開源公布。根據外媒Venturebeat報導,DataComp專案成員來自蘋果、華盛頓大學、以色列台拉維夫大學,以及豐田研究院。

更多新聞:OpenAI Altman承認 ChatGPT需要新命名系統

第一款模型是DCLM-7B,是70億參數的模型,以2.6兆字符資料訓練而成。根據蘋果的說法,他們和State of the Art(SoTA)模型像是Mistral、Llama 3、Gemma、阿里巴巴Qwen-2、微軟Phi-3與開源模型MAP-Neo相比,DCLM-7B在多語理解測試中,最後的成果和Map-Neo相較效能相同,但運算資源耗損少了40%。

DCLM-1B效能優於SmolLM

若是和私有模型相較,DCLM-7B準確性得分64%和Mistral-7B-v0.3 63%及Google Gemma的64%相比差不多,比起Llama 3-8B的66%略低,但蘋果表示,他們的模型耗能低了6.6倍。至於另一款DCLM-1B模型參數量為14億,蘋果官方宣稱,在Alpaca bench的測試中,效能優於Hugging Face公布的小模型SmolLM。 蘋果最終將DCLM模型框架、高品質訓練資料集DCLM-BASELINE,以及預訓練方法都開源公布在相關的專案網站。

瀏覽 360 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button