AI模型排行榜揭秘!誰的幻覺最嚴重?
編譯/夏洛特
隨著人工智慧(AI)幻覺問題引起關注,機器學習監控平台Arthur AI就將科技行業的頂級人工智慧(AI)大型語言模型(LLM)互相進行比較。Arthur AI發現,微軟支持的OpenAI 的GPT-4 在回答數學問題方面表現最好;Meta 的Llama 2 則位於中間;Anthropic 的Claude 2 最擅長遵守其限制,而Cohere AI 則是幻覺最嚴重、卻又最自信的AI。
第一份「全面了解AI幻覺發生率的報告」
據外媒報導,Arthur 聯合創始人兼首席執行長Adam Wenchel表示,這是第一份「全面了解AI幻覺發生率的報告」,而不只是提供一個單一的數字來說明他們在LLM排行榜上的位置而已。因為數據被模型消化的方式不可預測,因此AI創造出非事實回應的「幻覺」問題到目前都還無法解決。在AI界,解決「幻覺」問題已經成為行業中的一大重點。
OpenAI 的GPT-4 在所有測試的模型中表現最好
在一項實驗中,Arthur AI研究人員透過詢問模型數學問題、美國總統人選和摩洛哥政治領導人等測試AI。研究人員表示,他們故意將問題設計成需要AI進行多個推理步驟,增加AI出錯的風險。總體而言,OpenAI 的GPT-4 在所有測試的模型中表現最好,研究人員發現,其幻覺比之前的版本GPT-3.5 少。如,在數學問題上,它的幻覺減少到33%;另一方面,研究人員發現,Meta 的 Llama 2 則比 GPT-4 和 Anthropic 的 Claude 2 有更嚴重的幻覺問題。
在數學問題上,GPT-4 位居第一,緊隨其後的是 Claude 2,但在美國總統問題上,Claude 2 在準確性方面排名第一,將 GPT-4 擠到第二位。而當被問及摩洛哥的政治時,GPT-4 再次排在第一位,Claude 2 和 Llama 2 幾乎完全選擇不回答。
Claude 2能準確衡量自己知道什麼、不知道什麼
在第二個實驗中,研究人員則是測試AI模型何時會透過警告短語避免出錯。如,回覆:「作為一個AI模型,我無法提供意見」等。研究人員表示,在避險方面,GPT-4 與 GPT-3.5 相比相對增加了 50%,並更不容易說出錯誤或危險言論;另一方面,Cohere 的AI模型則完全沒有安全機制,有很嚴重的幻覺問題;最後,Claude 2 在「自我意識」方面最為可靠,並能準確衡量自己知道什麼、不知道什麼,然後只回答有訓練數據支持的問題。
真的了解LLM的實際使用方式才是關鍵
不過,Arthur AI的Wenchel也指出,這些都只是參考值,對用戶和企業來說,最重要的是了解模型會如何執行你想要完成的任務。他說:「很多基準只是考察LLM本身的某種衡量標準,但這實際上並不是我們在現實世界使用的方式,因此確保你真的了解LLM的實際使用方式才是關鍵」。
參考資料:CNBC
※更多ChatGPT相關訊息,請參考【生成式AI創新學院】。
瀏覽 28,248 次