「你不能用我的數據,但我可以用你的」 AI公司太虛偽

編譯/于文浩

科技市場開始出現數據受盜用,用於訓練新的 AI 模型的狀況。(示意圖/123RF)

在生成式人工智慧(AI)的新時代,大型科技公司非常虛偽。他們不允許自己的數據被他人使用,但自己卻使用各種未經許可的線上數據來訓練自家AI。他們知道,對於訓練新的 AI 模型,高品質的內容非常重要,因此保密是有道理的,但那些數據被使用的公司也已經漸漸開始意識到問題的重要性。

  • Reddit 和其他公司表示受夠了

隨著越來越多人開始意識到數據受盜用問題,社群網站Reddit表示他們受夠了,並計畫開始對訪問其數據收費。多年來,Reddit數據一直被用於訓練AI 模型。Reddit 首席執行長Steve Huffman表示:「Reddit 的數據非常有價值。但我們不需要將所有這些價值免費提供給世界上一些最大的公司。」

2023年 4 月,推特前首席執行長馬斯克也指責 OpenAI 的主要支持者微軟非法使用Twitter的數據訓練 AI 模型。他發推文寫道:「提起訴訟的時間到了。」

  • AI開發者也知道

前微軟高層Steven Sinofsky也認為這不對。他說,當前訓練 AI 模型的方式「破壞」了網路。他在推特上寫道:「以前這些資料可以吸引點閱並帶來收入,但數據被用來訓練模型,並不會惠及創作者或版權所有者。」

微軟發言人則表示:「有太多錯誤導致如此,我甚至不知道從哪裡開始解釋。」OpenAI 的首席執行長 Sam Altman 正試圖要研發尊重版權的新 AI 模型。他最近提到:「我們正在嘗試開發新模型,如果AI系統正在使用你的內容,或你的風格,你就能獲得收入。」

  • 禁令

但即使如此,目前在各大AI開發公司的使用條款中,都仍包含了一項禁止使用其數據的禁令。以下是這些禁令的節錄:

Google:「使用者不得使用服務,開發機器學習模型或相關技術。」

OpenAI:「使用者不能使用服務的輸出,開發與 OpenAI 競爭的模型。」

Anthropic:「使用者不得使用我們的服務,開發與我們競爭的任何產品,包括任何AI、機器學習演算法和模型。」
參考資料:Insider

瀏覽 24,166 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button