Meta開源AI模型ImageBind　結合6大感知更像人類

2023-05-11

記者／竹二

隨著人工智慧的應用越來越多元，Meta AI近日開源了多模態AI模型ImageBind，整合了6大感知形式，囊括了照片影片、文字、聲音、深度、熱量與慣性測量單元（IMU），可以讓機器能夠像人類一樣，全面分析不同類型的資料，像是用聲音及影像來形成影像，或是以聲音來產生影像的生成能力。

在傳統的AI系統當中，每個模態都會有一個特定的嵌入，ImageBind則建立了不同模態的共同嵌入空間，而且不需要針對各模態之間的不同結合進行訓練。這個進展非常重要，因為人類多半能夠從少數的例子中學到新的概念，像是只是閱讀對動物的文字描述，就得以在現實生活中辨認他們，但是在AI領域中，隨著模態數量的增加，缺乏感官資料會限制標準的模態學習，但分布不同資料的共同嵌入空間，則可讓模型學習不同的模態。

因此，基於共同嵌入空間的ImageBind不僅可以利用影像來汲取聲音、以文字來造就影像與聲音、用聲音及影像來形成影像，像是把海浪的聲音加入海灘的照片中，輸入火車的聲音可以得到相關的影像，輸入狗叫聲再加上海灘照片可以得到狗望向大海的照片。

根據Meta AI的說明，ImageBind展示的是藉由配對的圖像資料，就足以結合這6種不同的模態，讓模型得以更全面解讀內容，現階段的研究中僅使用6種模態，未來若導入更多的模型，像是觸覺、說話、嗅覺等，將會帶來更豐富、更像人類的AI模型。

Meta AI開源了多模態AI模型ImageBind，整合了6大感知形式。（圖／截取自Meta AI）

瀏覽 641 次

覺得不錯的話就分享出去吧！

標籤

2023-05-11

Meta開源AI模型ImageBind　結合6大感知更像人類

推薦工作

發佈留言取消回覆

推薦工作

延伸閱讀

入列TOP500 / Green500！華碩全方位伺服器解方盡在SC24

OpenAI打算開發結合ChatGPT的瀏覽器 持續挑戰老大哥Google

逢甲大學全面導入Copilot成就AI校園 提升教學與行政效率

淹水與乾旱未來將同時發生！「共享資料庫」如何幫助民眾和企業決策？

靠AI模型協助診斷反而失準？史丹佛大學研究證實

只靠微波爐、鋁箔紙！印度青年成功破解AirPods Pro 2地區限制

發佈留言 取消回覆

OpenAI打算開發結合ChatGPT的瀏覽器持續挑戰老大哥Google

逢甲大學全面導入Copilot成就AI校園提升教學與行政效率

發佈留言取消回覆