只為訓練AI 傳OpenAI轉錄百萬小時YT影片

2024-04-08

編譯／黃竣凱

隨著訓練人工智慧（AI ）的資料耗盡，即使知道有道德和版權問題，AI巨頭OpenAI仍正在使用YouTube影片訓練AI，這引發了爭議。據悉，為訓練其最先進的大型語言模型 GPT-4，該公司透過 Whisper 音頻轉錄模型，轉錄了超過 100 萬小時的 YouTube 影片。

資料耗盡

《紐約時報》指出，OpenAI在 2021 年耗盡了有用的數據供應，並在耗盡其他資源後討論了轉錄 YouTube 影片、Podcast和有聲讀物的策略。 OpenAI 發言人 Lindsay Held 在回應詢問時強調，該公司正在努力為其模型打造「獨特」的資料集，這些資料集來自各種來源，包括公開資料和合作夥伴關係。此外，該公司也正在探索產生合成數據。

更多新聞：撫平擔憂 OpenAI嘗試解決「聲音引擎」造假問題

法律問題

雖然該公司知道這可能在法律上有問題，但該公司仍本著「合理使用」的信念繼續推進，而OpenAI 總裁 Greg Brockman 也親自參與了影片收集的過程。YouTube 執行長 Neal Mohan則表示，他不知道 OpenAI 是否正在使用 YouTube 內容，訓練影片產生器Sora，但他說，如果該公司真的使用 YouTube 內容，那將「明顯違反」該平台的服務條款。

Google的回應

雖然YouTube 的所有者Google，也正在使用一些 YouTube 影片來訓練自己的AI平台 Gemini，但前提是平台上的個人創作者在合約中同意才可以。Google表示，「我們的robots.txt 文件和服務條款，禁止未經授權的抓取或下載YouTube 內容，當有明確的法律或技術依據時，我們將會針對OpenAI採取技術和法律措施，防止此類未經授權的使用。」

訓練資料難題

隨著AI產業的爆炸性成長，關於科技公司使用哪些內容來訓練AI模型的爭論越來越激烈，許多藝術家和創作者都認為，未經他們的許可，這些公司不得使用他們的受版權保護的作品。除了Google、OpenAI外，因劍橋分析醜聞受到限制的Meta 也正在面臨AI訓練資料可用性的限制，而無法自由的使用消費者資料，據報導，該公司正在採取一些措施，包括支付圖書許可費用及直接收購一家大型出版商等。

參考資料：Th e Verge、Insider

瀏覽 683 次

覺得不錯的話就分享出去吧！

標籤

2024-04-08

只為訓練AI 傳OpenAI轉錄百萬小時YT影片

資料耗盡

法律問題

Google的回應

訓練資料難題

推薦工作

發佈留言取消回覆

資料耗盡

法律問題

Google的回應

訓練資料難題

推薦工作

延伸閱讀

女性使用AI比率成長速度驚人 2025 年底將超越男性

元宇宙市場規模破2000億美元 有望成為下一座科技金礦？

華為Ascend AI晶片發展受阻 7奈米技術遠遠落後競爭對手

企業要注意！歐盟共同執法優先事項 未來永續報告需遵守

入列TOP500 / Green500！華碩全方位伺服器解方盡在SC24

OpenAI打算開發結合ChatGPT的瀏覽器 持續挑戰老大哥Google

發佈留言 取消回覆

元宇宙市場規模破2000億美元有望成為下一座科技金礦？

企業要注意！歐盟共同執法優先事項未來永續報告需遵守

OpenAI打算開發結合ChatGPT的瀏覽器持續挑戰老大哥Google

發佈留言取消回覆