蘋果開發Ferret-UI 可解讀手機畫面及強化Siri
記者/竹二
隨著生成式AI蓬勃發展以來,各種多模態大型語言模型(MLLM)紛紛出現,不過,通用領域的MLLM在解讀螢幕資訊和使用者介面時常常表現不佳。蘋果近日公布最新研究,表示他們正在開發「Ferret-UI」,這是一種專門用於理解手機螢幕畫面的MLLM,預期未來可以為更強大的Siri提供動力。
無法解讀圖像很小的資訊
MLLM的目的是為了拓展AI系統理解非文字資訊的能力,像是圖像、影像、音訊等,但是目前市面上的MLLM大多不擅長理解應用程式的輸出,造成這種情況的原因有很多,主要是因為智慧手機螢幕畫面與大多數影像訓練資料的長寬比例不同,MLLM所要辨識的圖像非常小,且在解釋靜態圖像需要與應用程式有所互動,無法一下子就能理解資訊。
更多新聞:蘋果低調開源Ferret雪貂模型 AI技術悄悄進行中
近日蘋果研究人員上傳了一篇論文,主要內容提及Ferret-UI是一種全新MLLM,專為理解手機UI螢幕而設計,可望解決上述的問題。有感於手機UI螢幕通常比自然圖像有著不一樣的長寬比,而且包含更小的圖文資訊,因此蘋果以Ferret MLLM為基礎,加入任何解析度的功能,放大細節並強化視覺特徵。
Ferret-UI表現超越GPT-4V
根據蘋果的說明,他們從廣泛的基本UI任務精心收集訓練樣本,像是圖示辨識、尋找文字、小工具清單等,經過格式化後以遵循指令,附有區域註釋,便於精確參考,為了強化模型的推論能力,他們甚至進一步編譯用於高階任務的資料集,包含詳細描述、對話感知或互動、功能推論。研究人員表示,Ferret-UI比多數開源UI MLLM表現出色,在所有基本UI任務超越GPT-4V。
外媒9to5Mac報導則指出,可以看得出Ferret-UI的未來潛力,因為它可能是評估UI有效性的有用工具,開發者可以建立應用程式初期版本,此外,Ferret-UI 有望為盲人總結螢幕畫面顯示的內容,並列出可用選項,盲人就可以告訴 iPhone他想要做什麼。
瀏覽 859 次