Open AI的Sora還需要調整什麼?|專家論點【Howie Su】
作者:Howie Su(產業分析師)
技術前瞻但存在不少問題
OpenAI Sora 的發布引起科學家、藝術家和政治家的狂熱與恐慌,Sora 產生的影片品質確實令人印象深刻,尤其是與去年人工智慧生成的影片相比,該模型仍處於實驗階段,很少有人明瞭其背後運作的原理,但從 OpenAI 迄今為止分享的範例來看,很明顯,儘管留下令人印象深刻的結果,但文字轉影片仍然存在一些基本缺陷,需要在投入生產之前修復問題。
不過,OpenAI 沒有發布太多有關 Sora 背後模型的資訊,除了知道它使用擴散和變壓器架構之外,由於 OpenAI 龐大的運算和資料資源,該模型已經過大規模訓練,隨附的「技術報告」也沒有討論實作細節,但包含一些有關其使用的模型和技術類型的提示,Sora 的大部分研究成果都建立在 Google、Facebook 和大學實驗室的基礎上,紐約大學研究指出,OpenAI 顯然已經利用其龐大的運算和資料資源將一個簡單的架構擴展至一定程度,從而帶來了「新興的模擬功能」。
在實際測試上,一方面,Sora可以產生單一場景和物體的大量細節,但另一方面,它也違反物理學和因果關係的基本規則,例如,物件可能會突然出現,或者模型可能會在整個影片中弄錯物件的比例,它在模擬肢體方面尤其糟糕,腳和手可能會向錯誤的方向彎曲,或是當模擬的角色行走時,從攝影機的角度來看,他們的腿相互交叉時可能會混合在一起,角色的步態在中途就被打亂,OpenAI承認,該模型「可能難以準確模擬複雜場景的物理原理,並且可能無法理解因果關係的具體實例。」
模型維運與修改成本高昂
對於Sora當前問題的解決方案,有不同的看法,一個明顯的方法是繼續擴展模型。該論文表明,研究人員能夠透過更多參數、數據和計算來改進結果。這種模式在基於 Transformer 的模型中經常出現,隨著變壓器的規模和訓練資料不斷增加,擴展成本持續攀升,高昂的成本只有像 OpenAI 這樣的公司才能使用,這些公司擁有強大的財務和計算資源,並且擁有有利可圖的商業模式,使他們能夠在此類實驗中投入大量資金。
另一種解決方案是重新設計生成模型或將其與其他系統結合以獲得更準確的結果,例如,像 Sora 這樣的模型可以將其輸出傳遞給另一個生成模型,例如神經輻射場 (NeRF),以建立其生成的影片的 3D 地圖,然後可以使用實體模擬器(例如虛幻引擎)對這些物件及其運動進行細化,該模擬器已經提供準確的結果,最後,其他生成模型(例如 StyleGAN)可以改變最終輸出的光線、風格和其他方面,也能添加許多其他小位元來進一步修改特定物件或背景。
當然,對使用者來說,這些複雜的技術怎麼操作可能不那麼重要,大家還是看他能多快應用在我們日常生活當中,但不可否認的是,這些大型語言模型公司已經開始成為AI軍火商,未來對於產業變遷改變將帶來重大影響。
瀏覽 1,284 次