大型語言模型輸出無法零錯誤 Google提出新訓練方式
記者/竹二
隨著AI技術的不斷演進,訓練AI的大型語言模式即便已經擁有修正錯誤的能力,在沒有人類的指引之下,還是無法百分之百完全無錯誤的完成任務。根據Google對於語言模型的新研究發現,要改進大型語言模型輸出結果,要讓模型自己發現錯誤,並根據回饋改進結果。
大型語言模型無法做到零錯誤
根據Google的研究發現,大型語言模型雖然已經可以辨識出自身在推理過程中出現的邏輯錯誤,並進行自我修正,但是這個過程並不夠好,還是常會需要人工干預來指正模型的輸出,無法在沒有人類的指引下,完全無錯誤的完成任務,因此研究人員提出了自我修正新方法。
Google的研究發現,即便是最先進的大型語言模型,在關聯思考風格推理中,找到邏輯錯誤的能力也相對有限,最佳模型的準確率也只有52.9%。因此他們創建了BIG-Bench Mistake評估基準資料集,特別是用於驗證在數學領域以外的錯誤發現任務上,該資料集包含了語言模型PaLM在BIG-Bench之中的5項任務,所生成的關聯思考軌跡,每個軌跡都被標註出邏輯錯誤。
Google提出新的訓練方式
為了最大化資料集的錯誤數量,Google研究人員選取了255個答案不正確的軌跡,和45個答案正確的軌跡,隨後用人工標記逐一審查每個軌跡,並標記出錯誤,每個軌跡至少由3名標記者進行審查,確保答案的可靠性。研究人員表示,因為這個資料集中的邏輯錯誤都很簡單明確,因此可以作為良好的測試標準,用於檢驗大型語言模型是否能先找出自己的錯誤。
研究人員認為,這是一個重要的結果,可以只使用一個小型的微調獎勵模型來進行回溯,並提高任務的準確性,較小的獎勵模型完全獨立於生成器大型語言模型,並且可以針對個別使用案例進行更新和進一步微調,這項研究的貢獻在於揭示了大型語言模型在自我修正方面的挑戰,並為未來的改進提供了方向。
瀏覽 1,268 次