只為訓練AI 傳OpenAI轉錄百萬小時YT影片

2024-04-08

編譯／黃竣凱

隨著訓練人工智慧（AI ）的資料耗盡，即使知道有道德和版權問題，AI巨頭OpenAI仍正在使用YouTube影片訓練AI，這引發了爭議。據悉，為訓練其最先進的大型語言模型 GPT-4，該公司透過 Whisper 音頻轉錄模型，轉錄了超過 100 萬小時的 YouTube 影片。

資料耗盡

《紐約時報》指出，OpenAI在 2021 年耗盡了有用的數據供應，並在耗盡其他資源後討論了轉錄 YouTube 影片、Podcast和有聲讀物的策略。 OpenAI 發言人 Lindsay Held 在回應詢問時強調，該公司正在努力為其模型打造「獨特」的資料集，這些資料集來自各種來源，包括公開資料和合作夥伴關係。此外，該公司也正在探索產生合成數據。

更多新聞：撫平擔憂 OpenAI嘗試解決「聲音引擎」造假問題

法律問題

雖然該公司知道這可能在法律上有問題，但該公司仍本著「合理使用」的信念繼續推進，而OpenAI 總裁 Greg Brockman 也親自參與了影片收集的過程。YouTube 執行長 Neal Mohan則表示，他不知道 OpenAI 是否正在使用 YouTube 內容，訓練影片產生器Sora，但他說，如果該公司真的使用 YouTube 內容，那將「明顯違反」該平台的服務條款。

Google的回應

雖然YouTube 的所有者Google，也正在使用一些 YouTube 影片來訓練自己的AI平台 Gemini，但前提是平台上的個人創作者在合約中同意才可以。Google表示，「我們的robots.txt 文件和服務條款，禁止未經授權的抓取或下載YouTube 內容，當有明確的法律或技術依據時，我們將會針對OpenAI採取技術和法律措施，防止此類未經授權的使用。」

訓練資料難題

隨著AI產業的爆炸性成長，關於科技公司使用哪些內容來訓練AI模型的爭論越來越激烈，許多藝術家和創作者都認為，未經他們的許可，這些公司不得使用他們的受版權保護的作品。除了Google、OpenAI外，因劍橋分析醜聞受到限制的Meta 也正在面臨AI訓練資料可用性的限制，而無法自由的使用消費者資料，據報導，該公司正在採取一些措施，包括支付圖書許可費用及直接收購一家大型出版商等。

參考資料：Th e Verge、Insider

瀏覽 824 次

覺得不錯的話就分享出去吧！

標籤

2024-04-08

只為訓練AI 傳OpenAI轉錄百萬小時YT影片

資料耗盡

法律問題

Google的回應

訓練資料難題

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

資料耗盡

法律問題

Google的回應

訓練資料難題

推薦工作

延伸閱讀

黃仁勳一句話讓量子股重摔！微軟卻說快成功 量子電腦要等多久？

繼吉卜力後！ChatGPT再推「Monday」語音功能 超厭世女聲很有感

川普擬課25%關稅 蘇姿丰直言：不只衝擊AMD 全球PC手機都會變貴

葉丙成龍華科大演講！分享AI時代新思維 鼓勵學生保有「好奇心」

聯電新加坡新廠開幕 第1期預計2026年投產、月產能估3萬片

川普「對等關稅」實施倒數 郭智輝：因應辦法會讓大家知道

發佈留言 取消回覆

黃仁勳一句話讓量子股重摔！微軟卻說快成功量子電腦要等多久？

繼吉卜力後！ChatGPT再推「Monday」語音功能超厭世女聲很有感

川普擬課25%關稅蘇姿丰直言：不只衝擊AMD 全球PC手機都會變貴

葉丙成龍華科大演講！分享AI時代新思維鼓勵學生保有「好奇心」

聯電新加坡新廠開幕第1期預計2026年投產、月產能估3萬片

川普「對等關稅」實施倒數郭智輝：因應辦法會讓大家知道

發佈留言取消回覆