表現未達預期  外媒:Claude 3有些令人失望

編譯/夏洛特

隨著人工智慧(AI)技術的不斷發展,人們對聊天機器人的期望越來越高,然而引起熱議的由Anthropic公司最新推出聊天機器人Claude 3,卻未能達到外媒的預期。科技網站《Tech Crunch》就在測試該機器人的高級版本Opus後,稱其結果有些「令人失望」。

根據外媒實測,測試Claude 3機器人的高級版本Opus後,稱其結果有些令人失望。圖/截取自 Anthropic官網

有限的資訊

《Tech Crunch》指出,Claude 3(包括Opus )都沒有2023 年8 月之後的即時資料,也沒有搜尋網路的功能,使其在解決用戶查詢時受到年限阻礙。對於尋求此時間範圍之外資訊的使用者,可能會認為 Claude 3 的回應已過時或無關緊要。這項限制極大地影響了其提供有關不斷演變事件或近期發展最新資訊的能力,不太有用適合尋求當前新聞或見解的用戶。

更多新聞:Claude 3是什麼? 深入解析Anthropic 的新AI模型

當被問及有關以色列-巴勒斯坦於加薩走廊的持續衝突時,Opus 就有些含糊其辭。不過,Opus 並沒有直接拒絕回答,而是提供了以色列和巴勒斯坦之間歷史緊張局勢的高層背景,並表示其答案「可能無法反映當前的現實」。然而,當提示模型列出 2023 年 7 月發生的值得注意的事情時,Opus卻表示,因為自己的知識只有 2021 年的知識,因此無法回答,令人困惑。

上下文視窗限制

雖然Claude 3的上下文窗口與 Google 最新的 Gemini 1.5 Pro 相當,但Gemini還提供最多 100 萬個「標記」的版本,使Claude 3相形失色。Claude 3 模型一開始就支援 200,000 個「標記」(token)的上下文窗口,相當於約 150,000 個單字或一本短篇(約 300 頁)小說,對於部分用戶來說,則可能最多可支援 100,000 個令牌上下文窗口(約 700,000 個單字)。

查詢的效能

儘管Anthropic聲稱Claude 3在技術基準上優於其他AI模型,但《Tech Crunch》測試後就發現, Claude 3 在與普通使用者相關的查詢,如關政治或醫療保健的問題的效能,可能無法達到預期,就算能夠給出一些基本的建議,但在提供專業醫療建議時,其表現不夠準確和深入,可能會誤導用戶。

參考資料:Tech Crunch

瀏覽 933 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button