講師:廖弘源 廖弘源1981年由國立清華大學取得物理學士,並於1990年取得美國西北大學電機博士。1991年7月應聘回中央研究院資訊所,2012年升為特聘研究員。他於1997年至2000年間擔任資訊所副所長,並於2018年8月受聘為資訊所所長。 廖博士致力於多媒體訊號處理、影像處理、以視訊為主的人類行為分析、三維圖形的分割及辨識等研究領域超過30年。曾任IEEE Signal Processing Magazine、 IEEE Transactions on Image Processing (2009-2013)、IEEE Transactions on Information Forensics and Security(2009-2012)等期刊的編輯,目前亦擔任ACM Computing Survey的副編輯。 廖博士曾獲得許多獎項,包括中央研究院年輕學者著作獎(1998),國科會傑出研究獎(2003、2010及2013),以及中央研究院深耕計畫獎(2010)。他也獲得中華民國資訊學會博士論文指導獎。 2016年他獲得東元科技獎;他因在image and video forensics and security的貢獻,於2013 年獲選為 IEEE Fellow。廖博士另於2020年獲得教育部第六十四屆學術獎,並於2023年獲國科會傑出特約研究員獎。 一、前言 2018年,時任科技部長陳良基撥出經費,開始了台灣的AI發展計畫,提供經費供學者進行AI研究。而廖弘源所長的團隊獲得科技部計畫補助,開始了Smart City Traffic Flow Solutions的計畫,其目標是首先是希望能把學界的研發能量帶進產業界,並幫助台灣廠商的產品進入國際市場。該計畫是當時義隆電子提供廖所長的研究團隊其所蒐集的路口與路口間的交通參數,希望團隊可以利用這些參數,讓路口與路口間互相傳遞交通訊息,並用動態的方式控制路口的交通號誌。也因為這次的科技部計畫案,讓廖所長的研究團隊開發出出YOLOv4,有效提升全世界的影像偵測技術。 二、YOLOv4的發展過程 對於YOLOv4而言,物件偵測(object detection)是所有事情的第一步。早期在做影像處理時,電腦視覺(computer vision)所看到的並不是如同我們肉眼所看到的物件,而是0和1的組合。後來深度學習(deep learning)的出現,才改變了傳統電腦視覺的做事方法。最先開始將深度學習導入物件偵測技術的為兩位美國教授。他們於2007-2010年開始利用1,400萬張影像訓練了21,000個物件,建立了視覺字典,讓電腦可以在偵測到物件後,有一本字典可以參照,辨識出該物件是一部車子或人。後來,甚至還有人開始以短暫的視訊片段作為資料庫,製作出了動作字典。最後,在2018年,雷德蒙(Joseph Redmon)發展出YOLOv3。然而他志不在此,所以並未持續鑽研YOLO系列的發展,而是將技術轉移給他的同事Alexey Bochkovskiy,YOLO技術的發展於是沉寂了一陣子。 2019年六月,同為廖所長研究團隊的成員之一王建堯博士開發出CSPNet系統,並測試成功。後來,王博士將測試成功的消息告知Bochkovskiy後,Bochkovskiy希望廖所長與王博士開始撰寫YOLOv4的研究文章,並於2020年4月完成寫作,並於寫作完成隔日將YOLOv4公開。廖所長的研究團隊於是再次推進YOLO技術的發展。YOLO系列運作的最主要利用「一階物件偵測」技術。與「二階物件偵測」不同,一階物件偵測通常有三個部分,由骨幹(backbone)、脖子(neck)和頭(head)所組成。骨幹就是一個深層網路,負責將未知的影像編碼,或將訓練資料的特徵編碼放進骨幹裡。接著,當需要偵測物件時,脖子就會開始從骨幹提取習得的特徵,並將這些特徵整合處理,最後再由頭部進行動作。 YOLOv4現也被廣泛運用。例如,義隆電子便與中興巴士合作,利用廖所長團隊開發的YOLOv4技術,讓司機可以透過螢幕,看到視野盲區是否有摩托車、腳踏車或行人,有效避免交通意外的發生。另外,無人機也可以配備YOLOv4,由上往下偵測路面交通狀況,描繪車子的行駛軌跡(圖1)。若未來有交通糾紛產生,此技術也有助於釐清肇事原因,協助排解交通糾紛。 圖 1:無人機結合YOLOv4技術,可以描繪出行車軌跡,在產生交通糾紛時亦有助於釐清真相。 自廖所長研究團隊的YOLOv4研究報告發布後,此技術目前不僅已被廣泛應用,更有許多研究引用廖所長團隊的研究報告,可說是學術界的台灣之光! 三、YOLOv7的發展過程 CSPNet與YOLOv4的成功,標誌了軟體在「階段層次設計」(stage-level design)的一大進展。不過中研院廖所長的團隊並未停下腳步,而是開始思考如何設計一個更快又準的系統。由於要設計一個快又準的網路必須考慮網路架構(network architecture)、特徵整合方法(feature integration method)、偵測方法(detection method)、損失函數(loss function)、標籤分配方法(label assignment method) 、和訓練方法(training method)的問題,於是廖所長的團隊便開始專注於提升網絡層次設計(network level design),發展YOLOv7,其研究貢獻就是將網路架構和訓練過程皆進行了優化。 在網路架構方面,研究團隊發現梯度路徑越短,網絡學習能力越強,於是研發了ELAN(Efficient Layer Aggregation Networks)。此原理即因為模型擴展(model scaling)會破壞網路穩定的狀態,所以YOLOv7利用ELAN來控制最短和最長的梯度路徑,透過擴展(expand)、隨機排序(shuffle)和合併基數(merge cardinality)等方式,讓網路更有效地學習和收斂,達到不破壞梯度路徑的目的,並增強網路學習能力。在訓練過程的優化部分,廖所長的研究團隊則是提出了YOLOR的概念,讓電腦可以在看過一次資料後,就將所有顯性(explicit knowledge)和隱性(implicit knowledge)知識記起來。 在實際應用方面,YOLOv7在姿勢偵測和實例分割(instance segmentation)等方面都是目前世界上最好的。舉例來說,由於YOLOv7可以準確地偵測姿勢,所以可以捕捉運動動作,幫助運動科學的發展。在農業方面,若要驅除某些長在果樹上的害蟲,就必須要快速精準地打擊其頭部讓牠瞎掉,在將牠驅除。而目前也有學者曾利用YOLOv7的偵測技術,利用雷射射擊長在果樹上的害蟲,讓牠瞎掉後死亡,減少其對果樹的傷害。 四、結語 從YOLOv4到YOLOv7,影像偵測的技術在近幾年來已有相當的發展,而從今天的課程中,我們可以發現台灣的研究團隊也為此領域做出重大的貢獻。偵測技術的進步不僅可以幫助我們釐清交通事故或糾紛的原因,也可以用來驅趕害蟲。從雷射結合YOLOv7的部分,我們更可以想像,或許未來影像偵測技術會被拿來運用於其他領域(如國防安全),而台灣若能持續保持科技技術的領先,也必能在未來科技的發展中做出顯著的貢獻。 【若想回顧完整版課程影音,請點選此連結;有任何問題或分享,也歡迎在本文底下留言。】