抓取網路數據訓練Bard Google承認了!
編譯/于文浩
日前,Google在更新的隱私政策中承認,其各種人工智慧(AI)服務,包括 Bard 和 Cloud AI,都可能會透過該公司從網路上抓取的公共數據進行訓練。在Google 2023 年 7 月 1 日的隱私政策更新中,該公司寫道:「為改進我們的服務並開發有利於我們的用戶和公眾的新產品、功能和技術,公司可能會使用公開可用的資訊訓練Google 的 AI 模型,包括 Google 翻譯、Bard 和 Cloud AI 功能等產品和功能」。
據外媒報導,在這次的隱私更新中,Google將其收集的數據進行培訓的服務寫得更清楚。如,該文件現在表示,這些資訊將用於「AI模型」而不是「語言模型」,這讓Google能夠更自由地使用公共數據、訓練和建構除大型語言模型之外的系統。
Google發言人 Christa Muldoon表示:「長期以來,我們的隱私政策都是透明的,Google一直都用來自網路的公開資訊訓練Google翻譯等服務的語言模型,而這個最新的更新只是澄清說像 Bard 這樣的新服務也包括在內」。
不過,即使更新後的政策稱,Google是用「公開可用的資訊」訓練Google的AI產品,他們並沒有說明其將如何,或有沒有阻止「受版權保護的資料」被納入該數據池。隨著AI模型引起熱潮,許多可公開訪問的網站都紛紛制定政策,禁止AI公司從網路收集資訊訓練大型語言模型和其他AI工具。近日,Twitter 和 Reddit 這兩個包含大量公共資訊的社群平台就因為採取嚴厲措施,阻止其他公司隨意收集他們的數據,引起大風波。
基於監管規範缺乏,AI公司收集數據的行為正在引發各種訴訟。日前, AI新創公司OpenAI就因為「盜用數據」被起訴,稱OpenAI「秘密」收集數據訓練其大型語言模型,並指出,OpenAI使用「基本上網路上每一條數據」,包括私人資訊、對話、醫療數據及兒童的資訊,且「沒有通知這些數據的所有者或用戶,或得到任何人的許可」。
參考資料:The Verge
瀏覽 634 次