MiniGPT-4開源　搶先使用圖片輸入功能

2023-04-20

編譯／莊閔棻

在GPT-4推出的時候，有一個輸入圖像的功能。然而，至今OpenAI都還沒有對外開放這個功能，另人很失望。但現在，沙烏地阿拉伯阿布都拉國王科技大學的一個博士生團隊開發了MiniGPT-4聊天機器人，不但開放此功能，還開源讓大家使用。

根據《Marketchpost》的報導，作為一個開源模型，MiniGPT-4能夠像GPT-4一樣執行複雜的視覺、語言任務。其功能包括和GPT-4類似的能力，如詳細的描述圖像，和將手寫稿變成可使用的網站程式碼等。

據報導，MiniGPT-4使用名為Vicuna的高級大型語言模型（LLM）作為語言解碼器。據稱該機器人可以達到GPT-4驅動的ChatGPT的90%能力。如，當被要求識別一張圖片中的植物有什麼問題時，MiniGPT-4表現良好。其還為用戶提供的有病植物的圖片提供了一個解決方案。它甚至還可以發現圖片中不尋常的東西、編寫產品宣傳廣告、透過觀察美味的食物照片生成詳細的食譜、為圖片寫一首歌，還能直接根據圖片找到有關圖片中人物、電影或藝術的事實。

根據該團隊的研究，MiniGPT-4只需要在4個A100 GPU上訓練10個小時左右。此外，該團隊還分享了，關於一個高性能的MiniGPT-4模型，是如何透過使用公共數據集的原始圖像／文本對來配對視覺特徵與LLM的。他們表示，為了克服其局限性，MiniGPT-4需要使用高品質的、排列整齊的數據集進行訓練，從而透過生成更自然和連貫的語言輸出來提高模型的可用性。

MiniGPT-4具有出色的多模組生成能力，似乎是一個很有前途的發展。最重要的特徵之一是它的高計算效率，以及它只需要大約500萬個對齊的圖像／文本配對來訓練一個投影層的事實。

當初，OpenAI在發布GPT-4時，並沒有公布其技術背後的程式。但現在，MiniGPT-4的程式碼、預訓練模型和收集的數據集都開源供大家查閱。

參考資料：marktechpost

瀏覽 10,065 次

覺得不錯的話就分享出去吧！

標籤

2023-04-20

MiniGPT-4開源　搶先使用圖片輸入功能

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

推薦工作

延伸閱讀

年輕世代「心困境」！職涯迷惘該怎麼辦 專業心理師給建議

立委提出《虛擬資產服務法》草案 盼KOL、RWA、穩定幣監管有新方向

想申請DEVCORE研發替代役？資深學長談競賽背景、研究成果重要性

研替辦公室諮詢輔導服務「2大對象」 4-6月梯次開放申請預約

黃仁勳一句話讓量子股重摔！微軟卻說快成功 量子電腦要等多久？

【整理包】臺灣學生遊戲團隊新勢力崛起 獨立遊戲殺出新藍海

發佈留言 取消回覆

年輕世代「心困境」！職涯迷惘該怎麼辦專業心理師給建議

立委提出《虛擬資產服務法》草案盼KOL、RWA、穩定幣監管有新方向

黃仁勳一句話讓量子股重摔！微軟卻說快成功量子電腦要等多久？

【整理包】臺灣學生遊戲團隊新勢力崛起獨立遊戲殺出新藍海

發佈留言取消回覆