隨時偵測影像物件!微軟推出AI視覺模型Florence

記者/竹二

微軟的視覺AI模型Project Florence,可以輕鬆地適應分類、檢索、目標偵測、視覺對答、圖像描述、影像檢索和動作識別等等視覺任務,而這一模型經過不斷訓練終於對外開放,微軟宣布Florence已經通過數十億文本圖像的訓練,為各個行業提供可靠、高效且滿足市場需求的視覺應用,以公開預覽形式向開發者開放。

微軟的說明影片中可以看到,Florence會不斷偵測影像上的物件,不管是有一隻獵豹坐在前面,後面有人拿望眼鏡看等等都可以偵測出來。(圖/微軟提供)

該模型現在已整合至Azure Cognitive Service for Vision,提供新的電腦視覺服務。新的視覺服務提供自動圖說、智慧裁切、分類、背景移除和圖像搜尋等功能,同時該服務還提供負責任人工智慧功能,用戶可以控制追蹤活動、分析環境,並接收即時警示。

Project Florence是微軟的人工智慧認知服務研究計畫,目的是要研發先進的電腦視覺技術,開發下一代電腦視覺辨識框架。官方提到,從2012年深度學習技術有所突破以來,圖像分類的準確率,已經從50.9%上升到90.2%。

但是微軟認為,距離實際應用電腦視覺技術仍有一段路要走,通用物件偵測的精確度只有65.9%,無法實際應用在關鍵任務,況且在影片上的應用挑戰更大,因此微軟想藉由Project Florence,推進電腦視覺技術的發展。

微軟在2021年發表《Florence: A New Foundation Model for Computer Vision》論文,Florence是一個電腦視覺的基礎模型,在資料集ImageNet-1K零樣本分類中,top-1精確度達到83.74%,top-5精確度可達97.18%。微軟提到,該模型經數十億筆圖像文字資料進行訓練,現在整合至Azure Cognitive Service for Vision,提供生產用電腦視覺服務。

用戶現在可於Vision Studio立即試用由Florence基礎模型所加持的電腦視覺功能,諸如圖說生成、圖像搜尋、背景移除、模型自訂等功能,在Vision Studio中還能試用影片總結功能,不需要額外的後設資料,讓用戶可直覺地搜尋影片內容。

瀏覽 1,107 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button