測試AI智慧大比拼用公眾問題測試LLM水準

2024-10-08

編譯／黃竣凱

舊金山兩家領先的人工智慧（AI）公司聯手發起一項名為「人性最後的考驗」（Humanity’s Last Exam）的活動，挑戰讓公眾設計問題來測試大型語言模型（LLM）如Google的Gemini和OpenAI的o1。專門負責準備LLM訓練數據的Scale AI公司與AI安全中心（CAIS）合作，推出這項活動目的是檢驗AI系統是否接近「專家級」水準。

有人工智慧公司聯手發起一項名為「人性最後的考驗」的活動，挑戰讓公眾設計問題來測試大型語言模型。（圖／123RF）

獎勵豐厚鼓勵公眾參與

據報導，該活動將挑選出50個最佳問題，設計者可獲得高達5,000美元（約新台幣15.8萬元）的獎金。活動主辦方表示，這次測試將運用歷史上「最廣泛的專家聯盟」，為AI系統建立新基準。

更多新聞：未來仍是未知數「AI教母」李飛飛也對AGI感到困惑

測試AI智慧的難題

即使未來擁有足夠的訓練數據，如何定義和測量AI仍是一個棘手問題，人類的智商測驗長期以來就因未能捕捉智力的多面性備受爭議，而AI的測試也面臨類似挑戰，目前，AI在總結文本、理解語言和機器視覺等任務上表現良好，但這些測試往往過於單一，無法反映AI的全面智慧。

AI結果可靠性存疑

目前，領先的LLM已經在多項智力、數學和法律測試中表現優異，但由於這些模型在訓練過程中已接觸到大量數據，部分專家擔心這些測試的結果可能無法準確反映AI的真正能力，AI的發展依賴於海量數據，使訓練與測試之間的界限變得模糊。

2028年 AI可讀遍所有文獻

AI分析網站Epoch預測，到2028年，AI可能已經讀過人類所寫的所有文獻，使AI的評估方式變得更加複雜，開發者必須採用新的數據集來進行測試，避免AI從訓練數據中預先學習答案。

生成AI有模型崩潰風險

但隨著網際網路上充斥越來越多由AI生成的內容，這些材料可能會再次進入未來的AI訓練集，導致AI表現下降，造成「模型崩潰」，為應對這一挑戰，許多開發者已開始收集AI與人類互動的數據，以增加新鮮的訓練數據。

參考資料：techxplore

※探索職場，透視薪資行情，請參考【科技類-職缺百科】幫助你找到最適合的舞台！

瀏覽 1,026 次

覺得不錯的話就分享出去吧！

標籤

2024-10-08

測試AI智慧大比拼用公眾問題測試LLM水準

獎勵豐厚鼓勵公眾參與

測試AI智慧的難題

AI結果可靠性存疑

2028年 AI可讀遍所有文獻

生成AI有模型崩潰風險

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

獎勵豐厚鼓勵公眾參與

測試AI智慧的難題

AI結果可靠性存疑

2028年 AI可讀遍所有文獻

生成AI有模型崩潰風險

推薦工作

延伸閱讀

【整理包】臺灣學生遊戲團隊新勢力崛起 獨立遊戲殺出新藍海

小心「冒牌貨症狀群」上身！解構焦慮「五大招」重拾自信與平衡

繼吉卜力後！ChatGPT再推「Monday」語音功能 超厭世女聲很有感

川普擬課25%關稅 蘇姿丰直言：不只衝擊AMD 全球PC手機都會變貴

葉丙成龍華科大演講！分享AI時代新思維 鼓勵學生保有「好奇心」

聯電新加坡新廠開幕 第1期預計2026年投產、月產能估3萬片

發佈留言 取消回覆

【整理包】臺灣學生遊戲團隊新勢力崛起獨立遊戲殺出新藍海

繼吉卜力後！ChatGPT再推「Monday」語音功能超厭世女聲很有感

川普擬課25%關稅蘇姿丰直言：不只衝擊AMD 全球PC手機都會變貴

葉丙成龍華科大演講！分享AI時代新思維鼓勵學生保有「好奇心」

聯電新加坡新廠開幕第1期預計2026年投產、月產能估3萬片

發佈留言取消回覆