Meta發表電腦視覺模型I-JEPA 可超越「生成式」學習

記者/竹二

Meta近日發佈了最新的電腦視覺模型I-JEPA(Image Joint Embedding Predictive Architecture),特色在於能夠關注真正的圖像重點,並以更少的GPU訓練時間就可獲得比當前生成式模型更好的效能,以人類理解世界的方式高層次預測缺失的資訊,而不被像素級不重要的細節困住。

Meta首席人工智慧科學家Yann LeCun。(圖/截取自Meta)

這項模型是由Meta首席人工智慧科學家Yann LeCun所提出的一種新的人工智慧模型架構,根據Meta的說明,I-JEPA在多項電腦視覺任務的表現都較當前廣泛使用的電腦模型高上不少,而且計算效率也更好,可以在不需要大量微調的情況下,用在許多不同的應用程式。

研究團隊使用16個A100 GPU,以72小時訓練了一個6.32億參數的視覺Transformer模型,發現在ImageNet資料集中的少樣本分類任務效能的表現,超越當前所有模型。研究人員指出,其他方法通常會需要2到10倍的GPU訓練時間,而且在使用相同資料訓練時,錯誤率通常會多更多。

據悉,I-JEPA可以維持高效能的原因,就在於能夠以更像人類理解抽象表示的方式,來預測缺失的資訊,能夠學習有用的表示,避開生成式方法的侷限。研究人員分析,以往生成式方法是透過刪除和扭曲模型輸入的部分內容來進行學習,像是抹除照片的一部分,或是隱藏文字段落中的某些單字,接著要求模型嘗試預測丟失的像素和單字,來達成訓練目的,這造成生成式方法一個明顯的缺點,就是嘗試填補每一個缺失的資訊,變得過於關注不重要的細節。

而I-JEPA預訓練則是非常高效,不需要使用複雜的資料增強方法,經過實驗證實,能夠學習出強大的語義表示,在ImageNet-1K的線性探索和半監督評估上,超越了像素和權杖重建方法,且在低階的視覺任務,像是物體計數和深度預測上表現得更好。

瀏覽 52,081 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button