蘋果開源新LLM模型OpenELM:尺寸小可支援手機、筆電運行
文/鉅亨網
蘋果 (AAPL-US) 因在生成式 AI 領域的腳步太慢,遭微軟、OPenAI、Google 等科技公司狠甩幾條街,即使執行長庫克表示,今年稍晚就會有生成式 AI 的新進展,仍無法挽回部分投資人信心,今年迄今股價仍跌逾 12%。如今,蘋果總算有生成式 AI 的新舉措。
為了在加速生成式 AI 的發展,蘋果在開源 AI 平台 Hugging Face 上發布一個具有開源訓練和推理框架的高效語言模型,名為 OpenELM。
據了解,OpenELM 有四種尺寸:2.7 億、4.5 億、11 億和 30 億個參數版本,定位於超小規模模型,而微軟 Phi-3 模型為 38 億。 這種小模型運行成本更低,可在手機和筆記型電腦等設備上運行。
同時,在 WWDC24 開發者大會之前,蘋果徹底開源了 OpenELM 模型權重和推理程式碼,資料集和訓練日誌等。 而且,蘋果還開源了神經網路庫 CoreNet。
早在今年 2 月,庫克就表示,蘋果生成式 AI 功能將於「今年稍後」推出,有消息稱即將在 6 月發布 iOS 18 可能是蘋果 iOS 史上 「最大」的更新,而 9 月也將推出首款 AI iPhone 設備。
如今,蘋果似乎在新一輪 AI 浪潮快到尾聲的時刻追趕上了產業腳步。
隨著 ChatGPT 風靡全球,近幾個月來,三星、谷歌、小米等手機廠商全面推進大語言模型在手機、平板等端側上的使用,包括照片處理、文字處理增強等,並形成一大賣點 。 而蘋果很少透露且極少有類似的自備功能,主要是用第三方工具做到類似效果。
今年 2 月財報會議上,庫克首次公佈生成式 AI 計劃,並將在今年稍後將 AI 技術整合到其軟體平台(iOS、iPadOS 和 macOS)中。
庫克表示,「我只想說,我認為蘋果在生成式 AI 和 AI 方面存在著巨大的機會,無需透露更多細節,也無需超出自己的預期。展望未來,我們將繼續投資於這些和其他 將塑造未來的技術。 其中包括 AI,我們繼續在 AI 領域花費大量時間和精力,我們很高興能在今年晚些時候分享我們在該領域正在進行的工作的細節。」
事實上,自年初至今,蘋果在生成式 AI 領域動作不斷。 今年 3 月,蘋果技術團隊發表論文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》,首次披露蘋果大模型 MM1,涵蓋 300 億參數、支援多模態、支援 MoE 架構,超半數作者屬於 華人。
如今,針對手機、平板等端側領域,蘋果真正的開源模型終於來了。
根據論文顯示,蘋果開源了大語言模型 OpenELM,有指令微調和預訓練兩種模型版本,共有 2.7 億、4.5 億、11 億和 30 億 4 種參數,提供生成文本、代碼、翻譯、總結摘要等功能。
雖然最小的參數只有 2.7 億,但蘋果使用了包括 RefinedWeb、去重的 PILE、RedPajama 的子集和 Dolma v1.6 的子集在內的公共資料集,一共約 1.8 萬億 tokens 資料進行了預訓練 ,這也是其能以小參數表現出超強性能的主要原因之一。
例如,11 億參數的 OpenELM,比 12 億參數的 OLMo 模型的準確率高出 2.36%,而使用的預訓練資料卻只有 OLMo 的一半。
在訓練流程中,蘋果採用了 CoreNet 作為訓練框架,並使用了 Adam 優化演算法進行了 35 萬次迭代訓練。 而蘋果的 MobileOne、CVNets、MobileViT、FastVit 等知名研究都是基於 CoreNet 完成的。
蘋果在論文中也表示,與以往只提供模型權重和推理程式碼並在私有資料集上進行預訓練的做法不同,蘋果發布的版本包含了在公開資料集上訓練和評估語言模型的完整框架,包括 訓練日誌、多個檢查點和預訓練配置。 同時,蘋果也發布將模型轉換為 MLX 庫的程式碼,以便在蘋果設備上進行推理和微調。
「此次全面發布旨在增強和鞏固開放研究社區,為未來的開放研究工作鋪平道路。」蘋果研究團隊表示。
此外,OpenELM 不使用任何全連接層中的可學習偏移參數,採用 RMSNorm 進行預歸一化,並使用旋轉位置嵌入編碼位置資訊。 OpenELM 也透過分組查詢注意力取代多頭注意力,用 SwiGLU FFN 取代了傳統的前饋網絡,並使用了 Flash 注意力來計算縮放點積注意力,能以更少的資源來進行訓練和推理。 同,蘋果使用了動態分詞和資料過濾的方法,實現了即時過濾和分詞,從而簡化了實驗流程並提高了靈活性。 也使用了與 Meta 的 Llama 相同的分詞器,以確保實驗的一致性。
這次,蘋果很有誠意將程式碼開源,一開到底,把所有內容都貢獻出來了。 僅 1 天多的時間,在模型 GitHub 平台上就獲得超過 1100 顆星。
而目前,大模型領域主要分為開源與閉源兩大陣營,國內外知名閉源的代表企業有 OpenAI、Anthropic、Google、Midjourney、百度、出門問問等;開源陣營有 Meta、微軟、Google、 商湯、百川智能、零一萬物等。
蘋果身為手機閉源領域的領導者,這次卻罕見地加入開源大模型陣營。 有分析認為,這可能在效法 Google 的方式先透過開源拉攏用戶,再用閉源產品去實現商業化營利。
同時,這也顯示蘋果進軍 AI 大模型領域的堅定決心。
作為同為端側模型、開源模型企業,商湯科技聯合創始人、首席科學家王曉剛近期對鈦媒體 App 表示,開源還是對於整個社區的發展還是非常重要的,是一個重要驅動力。 最終大模型的發展包括各種應用,還是要整個社區共同去推動的。 對於大模型的應用也分為不同的層次,這麼多產業對應用的需求也是不一樣的,豐富的開源社群非常重要。
(本文已獲鉅亨網同意授權刊出)
瀏覽 1,077 次