YOLOv7串起2大生態圈 3大關鍵突破問世
記者/陳士勳
YOLOv7於2022年亮相,超越各大SOTA物件偵測模型,其核心開發者中研院資訊所所長廖弘源、助研究員王建堯透露關鍵在於「輕巧有效率的網路架構ELAN」、「執行多任務的外掛YOLOR」及「自動學習和具備泛化能力的訓練策略」等3大突破,使YOLOv7串起PyTorch和Darknet等2大框架的生態圈。
王建堯表示,ELAN是款省時省力,還能讓模型在硬體資源受限的低階設備或是邊緣裝置上,執行物件偵測任務的特別優化類神經網路架構,「一般模型要準確辨識出物件,大都使用較為複雜的網路架構,來處理影像特徵,不過相對得耗費更多運算資源。」團隊設計ELAN時,改善了前一代模型中耗費記憶體頻寬的設計,藉由排除殘差,使類神經網路架構更為精簡、提高效能。
相較前幾代YOLO模型,王建堯指出,YOLOv7能夠執行物件偵測任務、實例分割及關節點偵測等3種任務,換句話說,就是透過畫面中用框,框出特定物件,像是行人、建築、交通號誌,還能更細緻地用顏色標出特定物件,且定位畫面中人體如頭部、手肘、膝蓋等關節點,「就像火柴人一樣,用來辨識動作和姿態。」
王建堯強調,良好訓練策略更是YOLOv7能打敗多款SOTA模型的主因,即是YOLOv7強調的Trainable bag-of-freebies,而Bag-of-freebies泛指用來提高模型準確度的訓練方法,或技術和策略,然而,該技術或策略雖加重訓練成本,卻不會累積模型推論時的運算成本,還能提高模型表現。
廖弘源觀察,現今許多先進深度學習技術,都採用TensorFlow和PyTorch等2種框架開發,「像Transformer和近期火紅的生成式AI。也因為這2種框架,而擁有大量使用者。」歷代YOLO物件偵測模型大都則採Darknet框架開發,YOLOv7則改採PyTorch框架來開發,也提供一套轉換器,能將PyTorch的YOLOv7模型版本,轉換成能與Darknet相容的版本,兼顧研發和部署需求,「大多數先進技術開發者,都使用主流深度學習框架,要做出影響世界的模型,得讓好用的東西能互補,加入到這個系統。」
瀏覽 962 次