開源AI定義爭議如何界定AI的自由與透明？

2024-06-24

編譯／黃竣凱

基於在人工智慧（AI）中，尚無一致認定的「開源」的定義，AI是否開源仍存在許多爭議。儘管《紐約時報》高度評價Meta執行長馬克·祖克柏（Mark Zuckerberg）擁抱「開源AI」使其在矽谷重新受歡迎，但大多數評估認為，Meta Llama大型語言模型並不真正符合開源的標準，突顯了爭論的核心問題。

開源AI的定義之爭

據報導，將傳統的軟體授權和命名規則應用於AI領域存在許多問題。專家Joseph Jacks就指出，「開源AI」這個概念並不存在，因為「開源」是專門為軟體原始碼發明的，而「神經網路權重」（neural network weights）並不能與軟體相提並論。為此，Jacks與其同事Heather Meeker則提出了「開放權重」的概念，認為雖然一開始對於是否應該稱其為開源AI存在爭議，但由於這個術語已被廣泛使用，因此繼續沿用。

更多新聞：Llama 3後勢看好和GPT-4 比較結果令人驚喜

Meta的參與

儘管Meta因為聲稱其Llama模型是開源的，但事實上，Llama 3在發布時，Meta使用了「公開可用」和「公開訪問」等術語，而非「開源」。

模型再現性

在軟體中，原始碼和二進制代碼是同一程式的不同表現形式，但是在AI中，訓練數據集和隨後的訓練模型是不同的，因為訓練過程中涉及多種統計和隨機因素，即使是使用相同的數據集和代碼，也未必能再現完全相同的模型，使AI模型的再現性不像軟體一樣容易實現。

數據的開放性

此外，數據的開放性也是一個主要挑戰。開源AI系統應允許使用者自由使用、研究、修改和分享系統，但是否能將一個AI系統定義為開源，取決於公司是否公開其訓練數據集，並涉及幾個層面的問題：

數據來源透明度：了解數據的來源及其處理方式比單純擁有數據更重要，包括標記、重複數據刪除和過濾數據的方法。
數據共享的實際困難：許多數據集包含機密或受版權保護的資訊，開發者可能無法分享這些數據。此外，訓練機器學習模型的某些技術也不需要實際分享數據。

技術透明度和可操作性

最後，為確保其他人能夠理解和再現模型，開源AI也需要提供詳細的訓練方法和參數，並要比傳統開源軟體更高的透明度和技術細節的公開。

開源AI的定義和檢查清單

目前，開放原始碼促進會（OSI）正在制定開源AI的定義，包含三個核心部分：前言、開源AI定義本身和一個檢查清單，要求AI模型開發的具體組成，在適當的開源許可下公開，包括訓練方法和模型參數的細節，但仍有許多問題需要解決。

參考資料：Tech Crunch

瀏覽 606 次

覺得不錯的話就分享出去吧！

標籤

2024-06-24

開源AI定義爭議如何界定AI的自由與透明？

開源AI的定義之爭

Meta的參與

模型再現性

數據的開放性

技術透明度和可操作性

開源AI的定義和檢查清單

推薦工作

發佈留言取消回覆

開源AI的定義之爭

Meta的參與

模型再現性

數據的開放性

技術透明度和可操作性

開源AI的定義和檢查清單

推薦工作

延伸閱讀

FAA監管鬆綁！SpaceX星艦發射目標明年翻5倍

輝達資料中心收入破300億美元 AI霸主地位持續鞏固

7個理由證實 Google Gemini已經勝過 ChatGPT

現在還處於開端！AMD蘇姿丰：AI是計算技術重要契機

中華大學招生難、清華大學鬧人才荒 兩校合併成立「清華平方科技園區」能找到雙贏解答？

MUJI無印良品開賣與Gogoro聯名車款 部分元件以回收再生原料製成

發佈留言 取消回覆

中華大學招生難、清華大學鬧人才荒兩校合併成立「清華平方科技園區」能找到雙贏解答？

MUJI無印良品開賣與Gogoro聯名車款部分元件以回收再生原料製成

發佈留言取消回覆