Meta發表圖像生成模型CM3Leon　用文字就能產生各種圖片

2023-07-19

記者／竹二

生成式AI應用越來越廣，Meta近日發表了可同時支援文字與圖像生成的CM3Leon模型，這是第一個由純文字語言模型配方，所訓練出來的多模態模型，Meta表示，其圖像生成所使用的訓練運算資源，只要其他方法的1/5，就可達到先進效能。

Meta近日發表CM3Leon模型，可用文字要求生成「在沙漠的一株小仙人掌，戴上一頂鑲有霓虹太陽眼鏡的草帽」的圖像。（圖／截取自Meta）

所謂的CM3Leon，是一個基於Token、檢索增強與decoder-only的模型，採用「因果隱蔽混合模態」架構，代表著該模型可以只關注之前的元素來生成輸出序列，確保生成內容的連貫性，訓練過程中還能夠忽視或隱蔽某些元件，以生成出更好的結果，並同時處理文字及圖像的輸入。

Meta強調，CM3Leon是通用模型，透過單一模型就可處理許多不同的任務，像是以文字描述來生成圖像，也能以文字描述來編輯圖像，或是要求模型替圖像生成圖說等功能。Meta舉例，可用文字要求生成「在沙漠的一株小仙人掌，戴上一頂鑲有霓虹太陽眼鏡的草帽」的圖像，也能利用文字幫《戴珍珠耳環的少女》戴上墨鏡等。

相關研究人員指出，CM3Leon只使用30億個Token的文字資料進行訓練，大幅低於OpenFlamingo的400億個與Flamingo的1000億個Token，卻能在替圖像產生圖說並回答圖像問題等2個任務上，達到相當的zero-shot效能等級，在回答VizWiz資料集中圖像問題的表現，甚至還勝過Flamingo。

有別於今年5月的ImageBind大方開源整合文字、聲音與視覺資料的多模態AI，這一次Meta並未公布是否或何時釋出CM3Leon。

瀏覽 2,524 次

覺得不錯的話就分享出去吧！

標籤

2023-07-19

Meta發表圖像生成模型CM3Leon　用文字就能產生各種圖片

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

推薦工作

延伸閱讀

年輕世代「心困境」！職涯迷惘該怎麼辦 專業心理師給建議

立委提出《虛擬資產服務法》草案 盼KOL、RWA、穩定幣監管有新方向

想申請DEVCORE研發替代役？資深學長談競賽背景、研究成果重要性

研替辦公室諮詢輔導服務「2大對象」 4-6月梯次開放申請預約

黃仁勳一句話讓量子股重摔！微軟卻說快成功 量子電腦要等多久？

【整理包】臺灣學生遊戲團隊新勢力崛起 獨立遊戲殺出新藍海

發佈留言 取消回覆

年輕世代「心困境」！職涯迷惘該怎麼辦專業心理師給建議

立委提出《虛擬資產服務法》草案盼KOL、RWA、穩定幣監管有新方向

黃仁勳一句話讓量子股重摔！微軟卻說快成功量子電腦要等多久？

【整理包】臺灣學生遊戲團隊新勢力崛起獨立遊戲殺出新藍海

發佈留言取消回覆