AI模型排行榜揭秘!誰的幻覺最嚴重?

編譯/夏洛特

隨著人工智慧(AI)幻覺問題引起關注,機器學習監控平台Arthur AI就將科技行業的頂級人工智慧(AI)大型語言模型(LLM)互相進行比較。Arthur AI發現,微軟支持的OpenAI 的GPT-4 在回答數學問題方面表現最好;Meta 的Llama 2 則位於中間;Anthropic 的Claude 2 最擅長遵守其限制,而Cohere AI 則是幻覺最嚴重、卻又最自信的AI。

隨著人工智慧(AI)幻覺問題引起關注,機器學習監控平台Arthur AI就將科技行業的頂級人工智慧(AI)大型語言模型(LLM)互相進行比較。(圖/123RF)

第一份「全面了解AI幻覺發生率的報告」

據外媒報導,Arthur 聯合創始人兼首席執行長Adam Wenchel表示,這是第一份「全面了解AI幻覺發生率的報告」,而不只是提供一個單一的數字來說明他們在LLM排行榜上的位置而已。因為數據被模型消化的方式不可預測,因此AI創造出非事實回應的「幻覺」問題到目前都還無法解決。在AI界,解決「幻覺」問題已經成為行業中的一大重點。

更多新聞:探索GPT-4 解密OpenAI模型五大特點

OpenAI 的GPT-4 在所有測試的模型中表現最好

在一項實驗中,Arthur AI研究人員透過詢問模型數學問題、美國總統人選和摩洛哥政治領導人等測試AI。研究人員表示,他們故意將問題設計成需要AI進行多個推理步驟,增加AI出錯的風險。總體而言,OpenAI 的GPT-4 在所有測試的模型中表現最好,研究人員發現,其幻覺比之前的版本GPT-3.5 少。如,在數學問題上,它的幻覺減少到33%;另一方面,研究人員發現,Meta 的 Llama 2 則比 GPT-4 和 Anthropic 的 Claude 2 有更嚴重的幻覺問題。

在數學問題上,GPT-4 位居第一,緊隨其後的是 Claude 2,但在美國總統問題上,Claude 2 在準確性方面排名第一,將 GPT-4 擠到第二位。而當被問及摩洛哥的政治時,GPT-4 再次排在第一位,Claude 2 和 Llama 2 幾乎完全選擇不回答。

Claude 2能準確衡量自己知道什麼、不知道什麼

在第二個實驗中,研究人員則是測試AI模型何時會透過警告短語避免出錯。如,回覆:「作為一個AI模型,我無法提供意見」等。研究人員表示,在避險方面,GPT-4 與 GPT-3.5 相比相對增加了 50%,並更不容易說出錯誤或危險言論;另一方面,Cohere 的AI模型則完全沒有安全機制,有很嚴重的幻覺問題;最後,Claude 2 在「自我意識」方面最為可靠,並能準確衡量自己知道什麼、不知道什麼,然後只回答有訓練數據支持的問題。

真的了解LLM的實際使用方式才是關鍵

不過,Arthur AI的Wenchel也指出,這些都只是參考值,對用戶和企業來說,最重要的是了解模型會如何執行你想要完成的任務。他說:「很多基準只是考察LLM本身的某種衡量標準,但這實際上並不是我們在現實世界使用的方式,因此確保你真的了解LLM的實際使用方式才是關鍵」。

參考資料:CNBC

※更多ChatGPT相關訊息,請參考【生成式AI創新學院】。

瀏覽 19,685 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button