將「錄音」轉為「街景」圖像最新AI應用打破視覺邊界

2024-11-28

編譯／安德烈

美國德州大學奧斯汀分校的一個研究團隊運用生成式人工智慧（AI），將聲音錄音轉化為街景影像，這些生成影像的顯示高度具準確性，顯示機器可以複製人類對環境的音訊和視覺感知之間的聯繫。

研究方法：用聲音訓練AI模型

研究團隊在期刊《Computers, Environmentand Urban Systems》發表的論文中，描述了他們如何透過都市與鄉村的街景聲音和影像數據訓練AI模型。他們使用來自北美、亞洲和歐洲城市的YouTube影音資料，創建了10秒聲音片段與影像靜態圖對，進行模型訓練，讓AI能從聲音輸入，生成高解析度的街景影像。

更多新聞：川普考慮設立白宮「AI沙皇」馬斯克參與程度深

高準確度展現聲景與街景的連結

在測試階段，研究人員將100個聲音片段生成的影像與真實照片進行比對。電腦分析發現，生成影像與實際照片在天空、綠地與建築物比例上的相似度很高，尤其在天空與綠地部分的對應最為準確。此外，人類參與者在選擇與來源音訊樣本相對應的生成影像時，平均準確率為80%。

技術優勢：模擬人類多感官經驗

該研究表明，AI不僅能模擬人類透過聲音想像場景的能力，還能透過聲音細節呈現天氣狀況及建築風格。如，交通聲音或夜間昆蟲的鳴叫能反映時間，而影像中的建築樣式與距離比例也與實景一致。

應用潛力：聲音與影像助城市研究

研究主要作者、地理與環境助理教授Yuhao Kang表示，這項技術可應用於提升對城市獨特性及人類感官經驗的理解。他指出，「AI技術突破了單純辨識物理環境的功能，進一步幫助我們探索不同地方的人類主觀體驗。」

聲景轉換的未來展望

此項研究將聲音的「隱藏視覺」展現在人們面前，為聲景與視景的交互研究開闢了新方向。未來，這項技術有望在地理空間、城市規劃與多感官互動領域發揮更大作用，讓人類對環境的理解更加立體與深入。

參考資料：techxplore

※探索職場，透視薪資行情，請參考【科技類-職缺百科】幫助你找到最適合的舞台！

瀏覽 128 次

覺得不錯的話就分享出去吧！

標籤

2024-11-28

將「錄音」轉為「街景」圖像最新AI應用打破視覺邊界

研究方法：用聲音訓練AI模型

高準確度展現聲景與街景的連結

技術優勢：模擬人類多感官經驗

應用潛力：聲音與影像助城市研究

聲景轉換的未來展望

推薦工作

發佈留言取消回覆

研究方法：用聲音訓練AI模型

高準確度展現聲景與街景的連結

技術優勢：模擬人類多感官經驗

應用潛力：聲音與影像助城市研究

聲景轉換的未來展望

推薦工作

延伸閱讀

估科學園區38家廠商須繳碳費 國科會：自主減碳可優惠

戰鬥機改造成的「SPA駕艙」 洗浴還可監測情緒、健康

川普恐逼台積電2奈米提前移美？吳誠文：最快可能2028年

兩難！台積電「中立地位」岌岌可危 中美科技戰維持平衡成挑戰

比亞迪推3款「刀片技術」建設機械電池 推動行業電氣化

輝達中國專屬RTX 5090D 顯示卡 規格與標準版RTX 5090相同

發佈留言 取消回覆

估科學園區38家廠商須繳碳費國科會：自主減碳可優惠

戰鬥機改造成的「SPA駕艙」洗浴還可監測情緒、健康

兩難！台積電「中立地位」岌岌可危中美科技戰維持平衡成挑戰

比亞迪推3款「刀片技術」建設機械電池推動行業電氣化

輝達中國專屬RTX 5090D 顯示卡規格與標準版RTX 5090相同

發佈留言取消回覆