大模型鬧「數據飢荒」的因應之道|漫談【主筆室】
科技島主筆/蔡哲明
美國紐約時報本月發布一篇調查報導,直指 OpenAI收集了超過100萬小時的YouTube視頻,將其音頻轉錄成文本,提供GPT-4進行訓練,若無自產數據做為因應,未來恐將供不應求。
AI業者急需大量數據訓練模型,為了成本考量遊走灰色地帶,根據YouTube服務條款,並不允許使用者於YouTube平臺之外使用內容,大模型鬧「數據飢荒」的背後,凸顯的是浮濫使用。
OpenAI對於語言模型訓練的素材需求大增,先從網路上的文字內容著手,再用語音轉文字工具「Whisper」轉錄YouTube影片訓練GPT-4,若連影片平台都已出現使用飽和,恐怕AI業者必須思考如何自給自足。
AI業者必須思考如何自產數據,才能避免訓練使用入不敷出。根據研究機構Epoch AI調查顯示,可用於訓練的優質文本,可能會在2026年全數耗盡。內容原創者一旦停工,這批AI內容使用者又該何去何從?
OpenAI正與其他公司探索一種「數據生成模式」,透過兩個不同大模型的搭配進行,一個負責生產數據,一個來做數據檢查,相互驗證彼此品質。此法不僅可以因應「數據燃料」的使用速度,也將成為自產數據的內功心法。
大模型鬧「數據飢荒」在於供不應求,目前正值浮濫使用,AI若不自給自足,內容原創一旦罷工,恐讓訓練數據就此斷炊。
瀏覽 3,034 次