麻省理工新ML模型用「聲音」建構空間

2022-11-02

麻省理工學院(MIT)和MIT-IBM Watson AI Lab的研究人員開發了一種特別的機器學習模型與「聲音」有關。透過捕捉到房間裡的任何聲音如何在空間中傳遞，讓模型可以模擬聽眾在不同位置聽到的聲音。該系統可以經由空間聲學建模，以學習空間的基本3D幾何。

該技術有可能可以應用在AR和VR上，以及協助人工智慧代理(artificial-intelligence agent) 更好發展對周圍世界的理解。因為目前的建模方式基本上都只注重視覺的部分，但用聲音來模擬也很重要。想像一下，若透過聲音建模，這對於水下探索機器人來說，可能可以感知到比視覺更遠的東西。

原先研究團隊運用了類似於隱式神經表示模型(implicit neural representation model)的機器學習模型來取得聲音在空間的傳播。隱式神經表示模型透過神經網路(neural networks)處理數據以完成任務。

經過一番嘗試後，研究團隊發現視覺模型的光度一致性(photometric consistency)並不適用於聲音。若我們以眼睛看物體，無論在什麼位置觀看物體都看起來差異不大，但是聲音會因為位置不同而有所差異，因為聲音會受到障礙物和距離等因素的影響。而這無異於讓預測聲音有一定挑戰性。

因此，研究團隊決定利用聲音的兩種特性來克服上述問題，即聲音的「對等性」和局部幾何特色的影響。「對等性」意味著聲源和聽者互換位置，聽者聽到的聲音是不變的。另外，聽者在特定區域聽到的聲音會受區域特徵影響，如聽者和聲源之間的障礙物。

為了讓研究團隊的neural acoustic field模型(NAF)也能具有這兩種特性，研究團隊透過網格來加強神經網路，該網格可以捕捉了場景中的物體和建築特徵。而該模型會在網格上取樣，以學習特定位置的特徵。這樣的方式讓NAF比起其他聲學模型方法，能建構出更精確的模型，因為NAF學習了局部位置的幾何訊息，這有助於NAF推算空間的位置。（編譯／施毓萱）

資料來源:MIT News

瀏覽 695 次

覺得不錯的話就分享出去吧！

標籤

2022-11-02

麻省理工新ML模型用「聲音」建構空間

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

推薦工作

延伸閱讀

繼吉卜力後！ChatGPT再推「Monday」語音功能 超厭世女聲很有感

川普擬課25%關稅 蘇姿丰直言：不只衝擊AMD 全球PC手機都會變貴

葉丙成龍華科大演講！分享AI時代新思維 鼓勵學生保有「好奇心」

成熟製程聯盟成形？日媒曝：聯電與格羅方德傳合併 官方回應「不予評論」

「請對我們狠一點！」英特爾執行長陳立武想拆掉舊文化 重新贏回工程師

美國關稅戰！台經院示警：復甦恐受阻 「這產業」成海嘯第一排

發佈留言 取消回覆

繼吉卜力後！ChatGPT再推「Monday」語音功能超厭世女聲很有感

川普擬課25%關稅蘇姿丰直言：不只衝擊AMD 全球PC手機都會變貴

葉丙成龍華科大演講！分享AI時代新思維鼓勵學生保有「好奇心」

成熟製程聯盟成形？日媒曝：聯電與格羅方德傳合併官方回應「不予評論」

「請對我們狠一點！」英特爾執行長陳立武想拆掉舊文化重新贏回工程師

美國關稅戰！台經院示警：復甦恐受阻「這產業」成海嘯第一排

發佈留言取消回覆