開源AI定義爭議 如何界定AI的自由與透明?
編譯/黃竣凱
基於在人工智慧(AI)中,尚無一致認定的「開源」的定義,AI是否開源仍存在許多爭議。儘管《紐約時報》高度評價Meta執行長馬克·祖克柏(Mark Zuckerberg)擁抱「開源AI」使其在矽谷重新受歡迎,但大多數評估認為,Meta Llama大型語言模型並不真正符合開源的標準,突顯了爭論的核心問題。
開源AI的定義之爭
據報導,將傳統的軟體授權和命名規則應用於AI領域存在許多問題。專家Joseph Jacks就指出,「開源AI」這個概念並不存在,因為「開源」是專門為軟體原始碼發明的,而「神經網路權重」(neural network weights)並不能與軟體相提並論。為此,Jacks與其同事Heather Meeker則提出了「開放權重」的概念,認為雖然一開始對於是否應該稱其為開源AI存在爭議,但由於這個術語已被廣泛使用,因此繼續沿用。
更多新聞:Llama 3後勢看好 和GPT-4 比較結果令人驚喜
Meta的參與
儘管Meta因為聲稱其Llama模型是開源的,但事實上,Llama 3在發布時,Meta使用了「公開可用」和「公開訪問」等術語,而非「開源」。
模型再現性
在軟體中,原始碼和二進制代碼是同一程式的不同表現形式,但是在AI中,訓練數據集和隨後的訓練模型是不同的,因為訓練過程中涉及多種統計和隨機因素,即使是使用相同的數據集和代碼,也未必能再現完全相同的模型,使AI模型的再現性不像軟體一樣容易實現。
數據的開放性
此外,數據的開放性也是一個主要挑戰。開源AI系統應允許使用者自由使用、研究、修改和分享系統,但是否能將一個AI系統定義為開源,取決於公司是否公開其訓練數據集,並涉及幾個層面的問題:
- 數據來源透明度:了解數據的來源及其處理方式比單純擁有數據更重要,包括標記、重複數據刪除和過濾數據的方法。
- 數據共享的實際困難: 許多數據集包含機密或受版權保護的資訊,開發者可能無法分享這些數據。此外,訓練機器學習模型的某些技術也不需要實際分享數據。
技術透明度和可操作性
最後,為確保其他人能夠理解和再現模型,開源AI也需要提供詳細的訓練方法和參數,並要比傳統開源軟體更高的透明度和技術細節的公開。
開源AI的定義和檢查清單
目前,開放原始碼促進會(OSI)正在制定開源AI的定義,包含三個核心部分:前言、開源AI定義本身和一個檢查清單,要求AI模型開發的具體組成,在適當的開源許可下公開,包括訓練方法和模型參數的細節,但仍有許多問題需要解決。
參考資料:Tech Crunch
瀏覽 582 次