蘋果開發Ferret-UI　可解讀手機畫面及強化Siri

2024-04-15

記者／竹二

隨著生成式AI蓬勃發展以來，各種多模態大型語言模型（MLLM）紛紛出現，不過，通用領域的MLLM在解讀螢幕資訊和使用者介面時常常表現不佳。蘋果近日公布最新研究，表示他們正在開發「Ferret-UI」，這是一種專門用於理解手機螢幕畫面的MLLM，預期未來可以為更強大的Siri提供動力。

無法解讀圖像很小的資訊

MLLM的目的是為了拓展AI系統理解非文字資訊的能力，像是圖像、影像、音訊等，但是目前市面上的MLLM大多不擅長理解應用程式的輸出，造成這種情況的原因有很多，主要是因為智慧手機螢幕畫面與大多數影像訓練資料的長寬比例不同，MLLM所要辨識的圖像非常小，且在解釋靜態圖像需要與應用程式有所互動，無法一下子就能理解資訊。

更多新聞：蘋果低調開源Ferret雪貂模型　AI技術悄悄進行中

近日蘋果研究人員上傳了一篇論文，主要內容提及Ferret-UI是一種全新MLLM，專為理解手機UI螢幕而設計，可望解決上述的問題。有感於手機UI螢幕通常比自然圖像有著不一樣的長寬比，而且包含更小的圖文資訊，因此蘋果以Ferret MLLM為基礎，加入任何解析度的功能，放大細節並強化視覺特徵。

Ferret-UI表現超越GPT-4V

根據蘋果的說明，他們從廣泛的基本UI任務精心收集訓練樣本，像是圖示辨識、尋找文字、小工具清單等，經過格式化後以遵循指令，附有區域註釋，便於精確參考，為了強化模型的推論能力，他們甚至進一步編譯用於高階任務的資料集，包含詳細描述、對話感知或互動、功能推論。研究人員表示，Ferret-UI比多數開源UI MLLM表現出色，在所有基本UI任務超越GPT-4V。

外媒9to5Mac報導則指出，可以看得出Ferret-UI的未來潛力，因為它可能是評估UI有效性的有用工具，開發者可以建立應用程式初期版本，此外，Ferret-UI 有望為盲人總結螢幕畫面顯示的內容，並列出可用選項，盲人就可以告訴 iPhone他想要做什麼。

瀏覽 986 次

覺得不錯的話就分享出去吧！

標籤

2024-04-15

蘋果開發Ferret-UI　可解讀手機畫面及強化Siri

無法解讀圖像很小的資訊

Ferret-UI表現超越GPT-4V

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

無法解讀圖像很小的資訊

Ferret-UI表現超越GPT-4V

推薦工作

延伸閱讀

【懶人包】川普祭車用零組件25%關稅！東陽、智伸科等台廠做法一次看

迎戰美國關稅台股海嘯 金管會祭出限空令「救市三箭」

蘋果也難擋！川普關稅恐使iPhone漲價 郭明錤：消費者準備買貴機

川普對等關稅32%！經濟部評估影響程度 「這些產業」成受災戶

川普關稅大刀砍台！財政部提3大支援方案搶救出口供應鏈

因應川普「對等關稅」 經濟部祭4大措施、410億元經費

發佈留言 取消回覆

迎戰美國關稅台股海嘯金管會祭出限空令「救市三箭」

蘋果也難擋！川普關稅恐使iPhone漲價郭明錤：消費者準備買貴機

川普對等關稅32%！經濟部評估影響程度「這些產業」成受災戶

因應川普「對等關稅」經濟部祭4大措施、410億元經費

發佈留言取消回覆