GPT-4和GPT-3.5大PK 令人印象深刻的10個原因

編譯/莊閔棻

OpenAI宣布了其大型語言模型的最新版本GPT-4,並表示,這個新的人工智慧是一系列主題的專家,比前一代更強大,而且它甚至還可以描述圖像。不過,該公司警告也說,此新系統仍然有和許多早期語言模型相同的問題,包括編造資訊或有「幻覺」傾向,並仍然容易在錯誤的時候堅持認為自己是正確的,又或是可能會發生「脾氣暴躁」和「走火入魔」等狀況。

簡單來說,GPT-4是一個很大的進步,但該系統可能還沒有達到可以與人類智力相比的程度。以下是對GPT-4的簡要介紹,以及其和GPT-3.5相比贏在哪,又輸在哪。

GPT-3.5和GPT-4解決推理問題時,GPT-3.5考慮的似乎比GPT-4更周到一些,並把更多的可能性考慮進去了,GPT-4則忽略了一些細節。另外雖然新的機器人似乎能夠推理出已經發生的事情,但被要求關於未來的假設時,它就不那麼擅長了。示意圖:RF123
  • 更高的精準度

當人工智慧專家、風險投資公司Page One Ventures的合夥人Chris Nicholson要求GPT-4機器人提供一個可以教他西班牙文基本知識的學習大綱時,機器人真的提供了一套詳細而有條理的學習方法,它甚至還提供了一系列學習和記憶西班牙語單字的技巧。

Nicholson表示,比起以前當他對GPT-3.5提出同樣要求時,GPT-4的建議更有幫助,有更有組織,更容易實行,而GPT-3.5的建議則更籠統,幫助也更小。Nicholson說:「它(GPT-4)已經突破了精準度的障礙。」

  • 更高的準確性

當人工智慧研究員Oren Etzioni教授第一次使用新的機器人時,他問了一個簡單的問題:「Oren Etzioni和Eli Etzioni之間是什麼關係?」

而GPT-4機器人的回答是正確的。Etzioni教授說,對於這個問題,舊版的ChatGPT的回答總是錯的,因此這似乎說明了新的聊天機器人有更豐富的知識。

不過,就像其他人工智慧一樣,該機器人還是沒辦法即時更新資訊。對於Etzioni教授的問題,機器人接著回答說:「Oren Etzioni是一名電腦科學家,也是艾倫人工智慧研究所 (Allen Institute for AI)的首席執行長,而Eli Etzioni是一名企業家。」其中大部分是正確的,但因為這個機器人的培訓是在去年(2022年)8月完成的,因此它不知道,最近Oren Etzioni已經從艾倫研究所首席執行長一職卸任了。

  • 能以令人印象深刻的細節描述圖像

作為聊天機器人擁有的最新功能,GPT-4可以對圖像以及文字做出回應,而它的前幾代則都不可以。也就是說,只要提供其一張照片或圖表,該機器人就可以對其提供詳細的、長達數段的文字描述,並回答有關其內容的問題 。OpenAI的總裁和聯合創始人Greg Brockman就演示了該系統如何對哈伯太空望遠鏡 (Hubble Space Telescope)的一幅圖像進行詳細的描述。該描述甚至包含了好幾段的內容。

不只如此,據稱,它還可以回答關於圖像的問題。如,若是給它一張冰箱內部食材的照片,GPT-4就可以提出有關可以使用這些食材做出哪些菜的建議。不過,壞消息是,基於可能發生的濫用問題,OpenAI尚未向公眾發布這部分技術。

  • 增加了專業知識

據報導,現在,GPT-4可以在許多不同的領域展示專業知識,從醫療、編寫電腦程式到會計領域等。

近日,北卡羅來納大學教堂山分校的醫學副教授和心臟病專家Anil Gehi就向聊天機器人描述了一位他的病人的病史,包括病人入院後的併發症,描述中還包含了一些非專業人士不會知道的醫學術語。最後,當Gehi醫生問他應該如何治療該病人時,聊天機器人給了他一個完美的答案。Gehi說:「這(GPT-4的敘述)就是我們治療病人的方式。」

而當他換一個病例時,機器人也給出了同樣令人印象深刻的答案。不過,雖然機器人可以給出這樣的答案,但我們仍然需要像Gehi博士這樣的專家來判斷是否正確,才能執行醫療程序。

  • 總結高手

當提供任何一篇來自《紐約時報》的文章時,新的聊天機器人幾乎每次都能對故事做出準確無誤的總結。而如果你在摘要中隨意添加一句話,並問機器人摘要是否不準確,它還可以指出亂加的那句話。

Etzioni博士說,這是一項了不起的技能。 他表示:「要做出高品質的總結和高品質的內容比較,必須對文本有一定程度的理解,並有能力表達這種理解。這是一種高級形式的智力(展現)。」

  • 具有幽默感

新的機器人除了寫出公式化的「冷笑話」外,還比它的前一代GPT-3.5更有趣一些。Etzioni博士表示,新的機器人具有幽默感,而且當他要求GPT-4講述新奇的笑話時,它的回答讓Etzioni印象深刻,還讓他笑了。

  • 推理能力比上一代差

不過,基於一些原因,GPT-4的推理能力似乎退化了。OpenAI的首席執行長Sam Altman表示,新機器人可以「稍微 」推理一下,但它的推理能力在很多情況下都會出現問題,而上個一版本的ChatGPT可能對這個問題的處理要好一點。

當Etzioni博士分別要求GPT-3.5和GPT-4解決推理問題時,GPT-3.5考慮的似乎比GPT-4更周到一些,並把更多的可能性考慮進去了,GPT-4則忽略了一些細節。

  • 可以在標準化的考試中取得好成績

OpenAI表示,新系統可以在律師資格考試中贏過90%的考生。根據該公司的測試,它還可以在SAT考試中獲得1300分的高分(滿分1600分),並在生物學、微積分、總體經濟學、心理學、統計學和歷史等高中高級課程考試中獲得5分的滿分。

該技術的前幾個版本都沒有通過律師資格考試,而在大多數大學先修課程考試中的得分也都沒有GPT-4那麼高。據報導,GPT-4不但可以使用專業術語來回答問題,還可以用一般人聽得懂的語言對其進行解釋。

  • 它不善於討論未來

雖然新的機器人似乎能夠推理出已經發生的事情,但當被要求形成關於未來的假設時,它就不那麼擅長了。GPT-4似乎只會借鑒別人說過的話,而不是創造屬於自己的新猜測。

Etzioni博士表示,當他問新機器人:「未來十年,在自然語言處理研究中需要解決的重要問題是什麼?」時, 該機器人無法提出全新的想法。

  • 它還在產生幻覺

因為人工智慧系統不了解什麼是真的,什麼是假的,因此,它們可能會產生完全錯誤的資訊,而就像所有聊天機器人一樣,這個新的機器人仍然會編造東西,並產生所謂的「幻覺」。如,當被要求提供最新癌症研究的網站地址時,它有時會生成不存在的連結。

參考資料:The New York Times

瀏覽 2,443 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button