MiniGPT-4開源　搶先使用圖片輸入功能

2023-04-20

編譯／莊閔棻

在GPT-4推出的時候，有一個輸入圖像的功能。然而，至今OpenAI都還沒有對外開放這個功能，另人很失望。但現在，沙烏地阿拉伯阿布都拉國王科技大學的一個博士生團隊開發了MiniGPT-4聊天機器人，不但開放此功能，還開源讓大家使用。

根據《Marketchpost》的報導，作為一個開源模型，MiniGPT-4能夠像GPT-4一樣執行複雜的視覺、語言任務。其功能包括和GPT-4類似的能力，如詳細的描述圖像，和將手寫稿變成可使用的網站程式碼等。

據報導，MiniGPT-4使用名為Vicuna的高級大型語言模型（LLM）作為語言解碼器。據稱該機器人可以達到GPT-4驅動的ChatGPT的90%能力。如，當被要求識別一張圖片中的植物有什麼問題時，MiniGPT-4表現良好。其還為用戶提供的有病植物的圖片提供了一個解決方案。它甚至還可以發現圖片中不尋常的東西、編寫產品宣傳廣告、透過觀察美味的食物照片生成詳細的食譜、為圖片寫一首歌，還能直接根據圖片找到有關圖片中人物、電影或藝術的事實。

根據該團隊的研究，MiniGPT-4只需要在4個A100 GPU上訓練10個小時左右。此外，該團隊還分享了，關於一個高性能的MiniGPT-4模型，是如何透過使用公共數據集的原始圖像／文本對來配對視覺特徵與LLM的。他們表示，為了克服其局限性，MiniGPT-4需要使用高品質的、排列整齊的數據集進行訓練，從而透過生成更自然和連貫的語言輸出來提高模型的可用性。

MiniGPT-4具有出色的多模組生成能力，似乎是一個很有前途的發展。最重要的特徵之一是它的高計算效率，以及它只需要大約500萬個對齊的圖像／文本配對來訓練一個投影層的事實。

當初，OpenAI在發布GPT-4時，並沒有公布其技術背後的程式。但現在，MiniGPT-4的程式碼、預訓練模型和收集的數據集都開源供大家查閱。

參考資料：marktechpost

瀏覽 9,910 次

覺得不錯的話就分享出去吧！

標籤

2023-04-20

MiniGPT-4開源　搶先使用圖片輸入功能

推薦工作

發佈留言取消回覆

推薦工作

延伸閱讀

入列TOP500 / Green500！華碩全方位伺服器解方盡在SC24

OpenAI打算開發結合ChatGPT的瀏覽器 持續挑戰老大哥Google

逢甲大學全面導入Copilot成就AI校園 提升教學與行政效率

靠AI模型協助診斷反而失準？史丹佛大學研究證實

只靠微波爐、鋁箔紙！印度青年成功破解AirPods Pro 2地區限制

擺脫「半成品」辱名 蘋果有意要讓相機控制鈕成殺手級存在

發佈留言 取消回覆

OpenAI打算開發結合ChatGPT的瀏覽器持續挑戰老大哥Google

逢甲大學全面導入Copilot成就AI校園提升教學與行政效率

擺脫「半成品」辱名蘋果有意要讓相機控制鈕成殺手級存在

發佈留言取消回覆