MiniGPT-4開源 搶先使用圖片輸入功能

編譯/莊閔棻

在GPT-4推出的時候,有一個輸入圖像的功能。然而,至今OpenAI都還沒有對外開放這個功能,另人很失望。但現在,沙烏地阿拉伯阿布都拉國王科技大學的一個博士生團隊開發了MiniGPT-4聊天機器人,不但開放此功能,還開源讓大家使用。

根據《Marketchpost》的報導,作為一個開源模型,MiniGPT-4能夠像GPT-4一樣執行複雜的視覺、語言任務。其功能包括和GPT-4類似的能力,如詳細的描述圖像,和將手寫稿變成可使用的網站程式碼等。

示意圖:123RF

據報導,MiniGPT-4使用名為Vicuna的高級大型語言模型(LLM)作為語言解碼器。據稱該機器人可以達到GPT-4驅動的ChatGPT的90%能力。如,當被要求識別一張圖片中的植物有什麼問題時,MiniGPT-4表現良好。其還為用戶提供的有病植物的圖片提供了一個解決方案。它甚至還可以發現圖片中不尋常的東西、編寫產品宣傳廣告、透過觀察美味的食物照片生成詳細的食譜、為圖片寫一首歌,還能直接根據圖片找到有關圖片中人物、電影或藝術的事實。

根據該團隊的研究,MiniGPT-4只需要在4個A100 GPU上訓練10個小時左右。此外,該團隊還分享了,關於一個高性能的MiniGPT-4模型,是如何透過使用公共數據集的原始圖像/文本對來配對視覺特徵與LLM的。他們表示,為了克服其局限性,MiniGPT-4需要使用高品質的、排列整齊的數據集進行訓練,從而透過生成更自然和連貫的語言輸出來提高模型的可用性。

MiniGPT-4具有出色的多模組生成能力,似乎是一個很有前途的發展。最重要的特徵之一是它的高計算效率,以及它只需要大約500萬個對齊的圖像/文本配對來訓練一個投影層的事實。

當初,OpenAI在發布GPT-4時,並沒有公布其技術背後的程式。但現在,MiniGPT-4的程式碼、預訓練模型和收集的數據集都開源供大家查閱。

參考資料:marktechpost

瀏覽 9,908 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button