將「錄音」轉為「街景」圖像 最新AI應用打破視覺邊界
編譯/安德烈
美國德州大學奧斯汀分校的一個研究團隊運用生成式人工智慧(AI),將聲音錄音轉化為街景影像,這些生成影像的顯示高度具準確性,顯示機器可以複製人類對環境的音訊和視覺感知之間的聯繫。
研究方法:用聲音訓練AI模型
研究團隊在期刊《Computers, Environmentand Urban Systems》發表的論文中,描述了他們如何透過都市與鄉村的街景聲音和影像數據訓練AI模型。他們使用來自北美、亞洲和歐洲城市的YouTube影音資料,創建了10秒聲音片段與影像靜態圖對,進行模型訓練,讓AI能從聲音輸入,生成高解析度的街景影像。
高準確度展現聲景與街景的連結
在測試階段,研究人員將100個聲音片段生成的影像與真實照片進行比對。電腦分析發現,生成影像與實際照片在天空、綠地與建築物比例上的相似度很高,尤其在天空與綠地部分的對應最為準確。此外,人類參與者在選擇與來源音訊樣本相對應的生成影像時,平均準確率為80%。
技術優勢:模擬人類多感官經驗
該研究表明,AI不僅能模擬人類透過聲音想像場景的能力,還能透過聲音細節呈現天氣狀況及建築風格。如,交通聲音或夜間昆蟲的鳴叫能反映時間,而影像中的建築樣式與距離比例也與實景一致。
應用潛力:聲音與影像助城市研究
研究主要作者、地理與環境助理教授Yuhao Kang表示,這項技術可應用於提升對城市獨特性及人類感官經驗的理解。他指出,「AI技術突破了單純辨識物理環境的功能,進一步幫助我們探索不同地方的人類主觀體驗。」
聲景轉換的未來展望
此項研究將聲音的「隱藏視覺」展現在人們面前,為聲景與視景的交互研究開闢了新方向。未來,這項技術有望在地理空間、城市規劃與多感官互動領域發揮更大作用,讓人類對環境的理解更加立體與深入。
參考資料:techxplore
※探索職場,透視薪資行情,請參考【科技類-職缺百科】幫助你找到最適合的舞台!
瀏覽 85 次