以自然語言處理相關專利呈現聊天機器人的技術實力|專家論點【耿筠】
作者:耿筠(國立台灣科技大學 專利研究所所長)
眾所周知,聊天機器人的核技術是由演算法所建構自然語言處理技術。本文針對此項技術相關專利進行解說與分析。主要分為如何使用專利資料庫找出與處理自然語言資料有關的專利、運用專利分類架構解說與自然語言處理相關的技術類型、該些專利所呈現出產業的狀態等三部分。
專利制度設計了專利分類碼,依據技術特徵而被賦予在各項專利文件中,表示該專利與那些技術有關。例如與半討體有關的專利絕大多數被賦予了 H01L 的分類碼。隨著科技發展進程與創新技術手段特徵之演化,主管單位適度增修分類碼的架構,以期符合當下的技術趨勢。又如,將奈米技術運用在資訊之分析、儲存或傳輸之量子計算的發展,2011 年 1 月新增加了分類碼 B82Y 10/00;兩年後又新增了分類碼 H04B 10/00,以因應當時利用量子通訊相關技術專利申請案的持續成長。
與自然語言處理技術的專屬編碼在 2020 年 1 月被增加到了專利分類碼系統,編號為 G06F 40/00 及細分的 71 個分類碼。這不表示在此之前沒有人申請與自然語言處理技術的專利,而是相關專利未累積到足夠件數而需要特別歸類。隨時科技發展對於經濟活動的影響,自然語言處理技術已呈現出高度的經濟價值而相關專利申請也成為未來重要的技術項目,主責專利分類碼的組織必須正視這種趨勢的發展,並在適當時間以當下所能被理解的技術特徵而建構有系統的編碼。因此,分類碼變化反映了多年技術發展與市場運用所累積的實務。本文運用這項條件在歐洲專利資料庫中檢索出全球與自然語言處理有關的專利進行統計分析。特別要注意,本文分析並不包括語音的分析或合成、語音識別見等相關技術的專利。
根據本文檢索結果,從 20 世紀中葉人類對於處理自然語言資料即產生了需求,且有具體的問題處理方案。促成近代發展電腦的 IBM 公司,在 1955 年申請了第一件相關專利,其技術內容與現今自然語言處理的程度有相當的差異。該技術實施於電動打字機上,例如在打字機上輸入 d,在顯示幕上出現人類語言慣性的數個字可供選擇,例如 date,這樣可以增加打字效率。
將統計時間拉到資訊科技發展較為成熟的 1980 年,與處理自然語言資料相關技術的專利統計如下圖。明顯的成長期大約在 1990 年至 2000 年之間。2000 年至 2010 年確立了該技術領域在產業發展的態勢。呈現爆炸性成長的時間點落在 2010 年至 2020 年之間,也就是近十年的事情。由於專利資料更新時間的遞延, 2022 年與 2023 年納入統計的資料不完整。
ChatGPT 有申請專利嗎?根據查詢的結果,擁有者 OpenAI 僅有 2 件專利與自然語言處理有關。曾經有人在平台上問過 ChatGPT 相同問題,得到的回答也不置可否。這是否意味聊天機器人不再依賴專利保護?接下來我們看看其他數據。
下圖所示為前 20 大的專利擁有者。從實際數據可以看出,OpenAI 背後的 Microsoft 是第二大的專利擁有者。IBM 是該領域擁有專利最多的廠商,但近期似乎沒有涉足聊天機器人的重磅新聞。其他擁有者對聊天機器人產品發布若干重要訊息。Google 在 2023 年 2 月推出 Bard,類似於 ChatGPT 聊天功能,但限制較多。同年三月份,百度集團發布聊天機械人「文心一言」,聲稱發布會後 1 小時就有超過 3 萬家企業申請試用。四月份,阿里巴巴的阿里雲邀請使用者體驗「通義千問」。
擁有專利數不少的日本企業,在前 20 大中佔有四家,但鮮少有相關新聞。韓國僅有 Samsung 進入前 20 大,一貫維持 Samsung 在各項科技領域的地位,但也沒有相關訊息。主要霸榜的美國廠商,共計 9 家,其餘為中國 6 家。榜單上的廠商都是著名的資訊科技或是資料科技大廠。
就前兩大且斷層式領先的 IBM 與 Microsoft 比較,IBM 第一件與處理自然語言資料相關專利是 1955 年, Microsoft 第一件專利是在 1990 年。兩者積攢的專利資產相當,近期申請熱度也類似,如下圖所示。但是兩者在技術策略與運用領域上似乎有差異,尚未見到 IBM 有重大的類似產品發布。
擁有技術者必須評估市場獲利的潛力而提出專利申請。如下圖所示,專利活動集中於中國與美國兩大市場,這也是全球最大的兩個經濟體。
自然語言處理相關專利的技術特性,在專利制度中以方法請求保護主,與電腦軟體技術相似,技術類別都屬於廣義的數位資料處理。除了自然語言處理外,通常會具有其他的技術特徵。如下圖所示,處理自然語言資料的專利技術中有 40% 涉及了數位計算機的檔案系統、11% 與數據格式轉換有關、8% 與模式識別有關,這些是屬於技術主體的精進。從統計資料可以看出生物模式與行政是自然語言處理商業化運用的兩大領域。屬於一般性質聊天功能而不具有經濟獲利的技術手段,通常是不會申請專利。
在專利世界可見的未來,處理自然語言資料相關技術將會持續且快速的成長。短期間 IBM 與 Microsoft 可能維持領跑者的優勢。作者預期長期發展下,在龐大經濟利益驅使下專利訴訟將會發生,畢竟擺在眼前就是逐年增加的專利,這使得專利擁有者有更多技術性獨佔領域,與相對較多的籌碼排除競爭者的非法行為。
瀏覽 847 次