開源AI定義爭議如何界定AI的自由與透明？

2024-06-24

編譯／黃竣凱

基於在人工智慧（AI）中，尚無一致認定的「開源」的定義，AI是否開源仍存在許多爭議。儘管《紐約時報》高度評價Meta執行長馬克·祖克柏（Mark Zuckerberg）擁抱「開源AI」使其在矽谷重新受歡迎，但大多數評估認為，Meta Llama大型語言模型並不真正符合開源的標準，突顯了爭論的核心問題。

開源AI的定義之爭

據報導，將傳統的軟體授權和命名規則應用於AI領域存在許多問題。專家Joseph Jacks就指出，「開源AI」這個概念並不存在，因為「開源」是專門為軟體原始碼發明的，而「神經網路權重」（neural network weights）並不能與軟體相提並論。為此，Jacks與其同事Heather Meeker則提出了「開放權重」的概念，認為雖然一開始對於是否應該稱其為開源AI存在爭議，但由於這個術語已被廣泛使用，因此繼續沿用。

更多新聞：Llama 3後勢看好和GPT-4 比較結果令人驚喜

Meta的參與

儘管Meta因為聲稱其Llama模型是開源的，但事實上，Llama 3在發布時，Meta使用了「公開可用」和「公開訪問」等術語，而非「開源」。

模型再現性

在軟體中，原始碼和二進制代碼是同一程式的不同表現形式，但是在AI中，訓練數據集和隨後的訓練模型是不同的，因為訓練過程中涉及多種統計和隨機因素，即使是使用相同的數據集和代碼，也未必能再現完全相同的模型，使AI模型的再現性不像軟體一樣容易實現。

數據的開放性

此外，數據的開放性也是一個主要挑戰。開源AI系統應允許使用者自由使用、研究、修改和分享系統，但是否能將一個AI系統定義為開源，取決於公司是否公開其訓練數據集，並涉及幾個層面的問題：

數據來源透明度：了解數據的來源及其處理方式比單純擁有數據更重要，包括標記、重複數據刪除和過濾數據的方法。
數據共享的實際困難：許多數據集包含機密或受版權保護的資訊，開發者可能無法分享這些數據。此外，訓練機器學習模型的某些技術也不需要實際分享數據。

技術透明度和可操作性

最後，為確保其他人能夠理解和再現模型，開源AI也需要提供詳細的訓練方法和參數，並要比傳統開源軟體更高的透明度和技術細節的公開。

開源AI的定義和檢查清單

目前，開放原始碼促進會（OSI）正在制定開源AI的定義，包含三個核心部分：前言、開源AI定義本身和一個檢查清單，要求AI模型開發的具體組成，在適當的開源許可下公開，包括訓練方法和模型參數的細節，但仍有許多問題需要解決。

參考資料：Tech Crunch

瀏覽 748 次

覺得不錯的話就分享出去吧！

標籤

2024-06-24

開源AI定義爭議如何界定AI的自由與透明？

開源AI的定義之爭

Meta的參與

模型再現性

數據的開放性

技術透明度和可操作性

開源AI的定義和檢查清單

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

開源AI的定義之爭

Meta的參與

模型再現性

數據的開放性

技術透明度和可操作性

開源AI的定義和檢查清單

推薦工作

延伸閱讀

【整理包】臺灣學生遊戲團隊新勢力崛起 獨立遊戲殺出新藍海

小心「冒牌貨症狀群」上身！解構焦慮「五大招」重拾自信與平衡

繼吉卜力後！ChatGPT再推「Monday」語音功能 超厭世女聲很有感

川普擬課25%關稅 蘇姿丰直言：不只衝擊AMD 全球PC手機都會變貴

葉丙成龍華科大演講！分享AI時代新思維 鼓勵學生保有「好奇心」

聯電新加坡新廠開幕 第1期預計2026年投產、月產能估3萬片

發佈留言 取消回覆

【整理包】臺灣學生遊戲團隊新勢力崛起獨立遊戲殺出新藍海

繼吉卜力後！ChatGPT再推「Monday」語音功能超厭世女聲很有感

川普擬課25%關稅蘇姿丰直言：不只衝擊AMD 全球PC手機都會變貴

葉丙成龍華科大演講！分享AI時代新思維鼓勵學生保有「好奇心」

聯電新加坡新廠開幕第1期預計2026年投產、月產能估3萬片

發佈留言取消回覆