測試AI智慧大比拼 用公眾問題測試LLM水準

編譯/黃竣凱

舊金山兩家領先的人工智慧(AI)公司聯手發起一項名為「人性最後的考驗」(Humanity’s Last Exam)的活動,挑戰讓公眾設計問題來測試大型語言模型(LLM)如Google的Gemini和OpenAI的o1。專門負責準備LLM訓練數據的Scale AI公司與AI安全中心(CAIS)合作,推出這項活動目的是檢驗AI系統是否接近「專家級」水準。

有人工智慧公司聯手發起一項名為「人性最後的考驗」的活動,挑戰讓公眾設計問題來測試大型語言模型。
有人工智慧公司聯手發起一項名為「人性最後的考驗」的活動,挑戰讓公眾設計問題來測試大型語言模型。(圖/123RF)

獎勵豐厚鼓勵公眾參與

據報導,該活動將挑選出50個最佳問題,設計者可獲得高達5,000美元(約新台幣15.8萬元)的獎金。活動主辦方表示,這次測試將運用歷史上「最廣泛的專家聯盟」,為AI系統建立新基準。

更多新聞:未來仍是未知數「AI教母」李飛飛也對AGI感到困惑

測試AI智慧的難題

即使未來擁有足夠的訓練數據,如何定義和測量AI仍是一個棘手問題,人類的智商測驗長期以來就因未能捕捉智力的多面性備受爭議,而AI的測試也面臨類似挑戰,目前,AI在總結文本、理解語言和機器視覺等任務上表現良好,但這些測試往往過於單一,無法反映AI的全面智慧。

AI結果可靠性存疑

目前,領先的LLM已經在多項智力、數學和法律測試中表現優異,但由於這些模型在訓練過程中已接觸到大量數據,部分專家擔心這些測試的結果可能無法準確反映AI的真正能力,AI的發展依賴於海量數據,使訓練與測試之間的界限變得模糊。

2028年 AI可讀遍所有文獻

AI分析網站Epoch預測,到2028年,AI可能已經讀過人類所寫的所有文獻,使AI的評估方式變得更加複雜,開發者必須採用新的數據集來進行測試,避免AI從訓練數據中預先學習答案。

生成AI有模型崩潰風險

但隨著網際網路上充斥越來越多由AI生成的內容,這些材料可能會再次進入未來的AI訓練集,導致AI表現下降,造成「模型崩潰」,為應對這一挑戰,許多開發者已開始收集AI與人類互動的數據,以增加新鮮的訓練數據。

參考資料:techxplore

※探索職場,透視薪資行情,請參考【科技類-職缺百科】幫助你找到最適合的舞台!

瀏覽 105 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button