Google發表新模型Lumiere　一次可文字轉生成5秒高品質影片

2024-01-29

記者／竹二

Google近日發表全新的文字轉影片擴散模型Lumiere，這是一種可以把文字轉換成影片擴散的模型，採用創新的時空U-Net（Space-Time U-Net，STUNet）基礎架構，可以一次生成真實、多樣且動作連貫的短影片。根據Google官方說法，這種技術可以一次生成完整的影片長度，而不需要經過多次處理。

Google的新模型Lumiere可以一次可以生成80影格，以每秒16影格來算，可產生長達5秒的影片。（圖／截取自Lumiere）

文字轉影片模型挑戰高，動作無法連貫

近一年多以來，圖像生成模型有長足進步，可以根據複雜的文字提示，生成高解析度且逼真的圖像，但是想要將這些複雜文字轉成影片還是有很高的挑戰，主要原因在於影片中的動作複雜性。

目前的文字轉影片模型沒有辦法生成長時間且動作逼真的影片，Google研究人員解釋，因為這些模型通常採用分階段的設計，會先生成幾個關鍵畫面，再用時間超解析度模型，填充關鍵畫面之間的畫面，這個方法雖然在記憶體效率上表現良好，但是在連貫動作上有限制。

Lumiere一次可生成5秒影片

而Google的新模型Lumiere則是採用不同的方法，他們使用STUNet架構一次性生成完整時間長度的影片，能夠在空間和時間上同時降採樣訊號，在更緊湊的時空進行大部分運算，可以一次可以生成80影格，以每秒16影格來算，可產生長達5秒的影片。研究人員指出，5秒的長度超過大多數媒體作品中平均鏡頭時長。

根據Google的說明，Lumiere是建立在一個經過預訓練的文字轉圖像模型之上，先由基礎模型在像素空間生成圖像的基本草稿，再透過一系列空間超解析度模型，逐步提升這些圖像的解析度和細節。整體而言，Lumiere是一個強大的文字轉影片擴散模型，可以生成高品質且動作連貫的影片，用於多種影片編輯和內容創建任務，像是影片修復、圖像轉影片生成，或是生成特定風格影片等。

瀏覽 695 次

覺得不錯的話就分享出去吧！

標籤

2024-01-29

Google發表新模型Lumiere　一次可文字轉生成5秒高品質影片

文字轉影片模型挑戰高，動作無法連貫

Lumiere一次可生成5秒影片

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

文字轉影片模型挑戰高，動作無法連貫

Lumiere一次可生成5秒影片

推薦工作

延伸閱讀

讓Notion跟AI成為第二個大腦！科技島3堂線上課 帶你掌握未來必備技能

川普關稅產業觀察：台灣代工廠、半導體供應鏈的挑戰與解方

【懶人包】手遊市場創驚人產值！翻拍電影、女神代言成不敗風潮

【懶人包】蘋果將推「AI醫生」 到底Health+有哪些功能？真的可信嗎？

因應美國對等關稅 總統賴清德證實：臺灣在首批談判名單內

聯發科推出新「天璣9400+晶片」 OPPO兩款手機搶先搭載

發佈留言 取消回覆

讓Notion跟AI成為第二個大腦！科技島3堂線上課帶你掌握未來必備技能

【懶人包】蘋果將推「AI醫生」到底Health+有哪些功能？真的可信嗎？

因應美國對等關稅總統賴清德證實：臺灣在首批談判名單內

發佈留言取消回覆