只為訓練AI 傳OpenAI轉錄百萬小時YT影片
編譯/黃竣凱
隨著訓練人工智慧(AI )的資料耗盡,即使知道有道德和版權問題,AI巨頭OpenAI仍正在使用YouTube影片訓練AI,這引發了爭議。據悉,為訓練其最先進的大型語言模型 GPT-4,該公司透過 Whisper 音頻轉錄模型,轉錄了超過 100 萬小時的 YouTube 影片。
資料耗盡
《紐約時報》指出,OpenAI在 2021 年耗盡了有用的數據供應,並在耗盡其他資源後討論了轉錄 YouTube 影片、Podcast和有聲讀物的策略。 OpenAI 發言人 Lindsay Held 在回應詢問時強調,該公司正在努力為其模型打造「獨特」的資料集,這些資料集來自各種來源,包括公開資料和合作夥伴關係。此外,該公司也正在探索產生合成數據。
更多新聞:撫平擔憂 OpenAI嘗試解決「聲音引擎」造假問題
法律問題
雖然該公司知道這可能在法律上有問題,但該公司仍本著「合理使用」的信念繼續推進,而OpenAI 總裁 Greg Brockman 也親自參與了影片收集的過程。YouTube 執行長 Neal Mohan則表示,他不知道 OpenAI 是否正在使用 YouTube 內容,訓練影片產生器Sora,但他說,如果該公司真的使用 YouTube 內容,那將「明顯違反」該平台的服務條款。
Google的回應
雖然YouTube 的所有者Google,也正在使用一些 YouTube 影片來訓練自己的AI平台 Gemini,但前提是平台上的個人創作者在合約中同意才可以。Google表示,「我們的robots.txt 文件和服務條款,禁止未經授權的抓取或下載YouTube 內容,當有明確的法律或技術依據時,我們將會針對OpenAI採取技術和法律措施,防止此類未經授權的使用。」
訓練資料難題
隨著AI產業的爆炸性成長,關於科技公司使用哪些內容來訓練AI模型的爭論越來越激烈,許多藝術家和創作者都認為,未經他們的許可,這些公司不得使用他們的受版權保護的作品。除了Google、OpenAI外,因劍橋分析醜聞受到限制的Meta 也正在面臨AI訓練資料可用性的限制,而無法自由的使用消費者資料,據報導,該公司正在採取一些措施,包括支付圖書許可費用及直接收購一家大型出版商等。
瀏覽 683 次