AI模型排行榜揭秘！誰的幻覺最嚴重？

2023-08-18

編譯／夏洛特

隨著人工智慧（AI）幻覺問題引起關注，機器學習監控平台Arthur AI就將科技行業的頂級人工智慧（AI）大型語言模型（LLM）互相進行比較。Arthur AI發現，微軟支持的OpenAI 的GPT-4 在回答數學問題方面表現最好；Meta 的Llama 2 則位於中間；Anthropic 的Claude 2 最擅長遵守其限制，而Cohere AI 則是幻覺最嚴重、卻又最自信的AI。

隨著人工智慧（AI）幻覺問題引起關注，機器學習監控平台Arthur AI就將科技行業的頂級人工智慧（AI）大型語言模型（LLM）互相進行比較。（圖／123RF）

第一份「全面了解AI幻覺發生率的報告」

據外媒報導，Arthur 聯合創始人兼首席執行長Adam Wenchel表示，這是第一份「全面了解AI幻覺發生率的報告」，而不只是提供一個單一的數字來說明他們在LLM排行榜上的位置而已。因為數據被模型消化的方式不可預測，因此AI創造出非事實回應的「幻覺」問題到目前都還無法解決。在AI界，解決「幻覺」問題已經成為行業中的一大重點。

更多新聞：探索GPT-4　解密OpenAI模型五大特點

OpenAI 的GPT-4 在所有測試的模型中表現最好

在一項實驗中，Arthur AI研究人員透過詢問模型數學問題、美國總統人選和摩洛哥政治領導人等測試AI。研究人員表示，他們故意將問題設計成需要AI進行多個推理步驟，增加AI出錯的風險。總體而言，OpenAI 的GPT-4 在所有測試的模型中表現最好，研究人員發現，其幻覺比之前的版本GPT-3.5 少。如，在數學問題上，它的幻覺減少到33％；另一方面，研究人員發現，Meta 的 Llama 2 則比 GPT-4 和 Anthropic 的 Claude 2 有更嚴重的幻覺問題。

在數學問題上，GPT-4 位居第一，緊隨其後的是 Claude 2，但在美國總統問題上，Claude 2 在準確性方面排名第一，將 GPT-4 擠到第二位。而當被問及摩洛哥的政治時，GPT-4 再次排在第一位，Claude 2 和 Llama 2 幾乎完全選擇不回答。

Claude 2能準確衡量自己知道什麼、不知道什麼

在第二個實驗中，研究人員則是測試AI模型何時會透過警告短語避免出錯。如，回覆：「作為一個AI模型，我無法提供意見」等。研究人員表示，在避險方面，GPT-4 與 GPT-3.5 相比相對增加了 50％，並更不容易說出錯誤或危險言論；另一方面，Cohere 的AI模型則完全沒有安全機制，有很嚴重的幻覺問題；最後，Claude 2 在「自我意識」方面最為可靠，並能準確衡量自己知道什麼、不知道什麼，然後只回答有訓練數據支持的問題。

真的了解LLM的實際使用方式才是關鍵

不過，Arthur AI的Wenchel也指出，這些都只是參考值，對用戶和企業來說，最重要的是了解模型會如何執行你想要完成的任務。他說：「很多基準只是考察LLM本身的某種衡量標準，但這實際上並不是我們在現實世界使用的方式，因此確保你真的了解LLM的實際使用方式才是關鍵」。

參考資料：CNBC

※更多ChatGPT相關訊息，請參考【生成式AI創新學院】。

瀏覽 29,142 次

覺得不錯的話就分享出去吧！

標籤

2023-08-18

AI模型排行榜揭秘！誰的幻覺最嚴重？

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

推薦工作

延伸閱讀

想申請DEVCORE研發替代役？資深學長談競賽背景、研究成果重要性

研替辦公室諮詢輔導服務「2大對象」 4-6月梯次開放申請預約

黃仁勳一句話讓量子股重摔！微軟卻說快成功 量子電腦要等多久？

【整理包】臺灣學生遊戲團隊新勢力崛起 獨立遊戲殺出新藍海

小心「冒牌貨症狀群」上身！解構焦慮「五大招」重拾自信與平衡

繼吉卜力後！ChatGPT再推「Monday」語音功能 超厭世女聲很有感

發佈留言 取消回覆

黃仁勳一句話讓量子股重摔！微軟卻說快成功量子電腦要等多久？

【整理包】臺灣學生遊戲團隊新勢力崛起獨立遊戲殺出新藍海

繼吉卜力後！ChatGPT再推「Monday」語音功能超厭世女聲很有感

發佈留言取消回覆