迎頭趕上DeepSeek？數發部拚今年立法、打造主權AI語料庫

2025-02-11

記者／李琦瑋

中國DeepSeek竄起，震撼科技產業，也引發外界擔憂臺灣的AI發展進度，立委葛如鈞日前指出，臺灣自產的大型語言模型「臺德（TAIDE）」，面臨算力資源、繁中語料不足等窘境已久，現在已落後中國一大截。數位發展部10日指出，今年將完成《促進資料創新利用發展條例》的立法，並打造臺灣的主權AI語料庫，把各機關資料開放給TAIDE訓練，未來也將開放民間企業進入和共享。

數發部長黃彥男表示，盼推動《資料創新應用條例》在今年完成立法，並打造臺灣的主權AI語料庫，滿足TAIDE訓練需求。（圖／記者李琦瑋攝）

臺灣沒有厲害自產AI　問題出在哪？

葛如鈞表示，目前由國科會開發的AI模型「可信任人工智慧對話引擎」TAIDE，自去年發表訓練8B大小的Llama 3-TAIDE-LX-8B-Chat-Alpha1模型後，便無消無息，迄今連TAIDE 13B模型都還沒釋出，但DeepSeek R1已達50倍—671B規模；臺灣主權AI的老問題在於繁中語料、研發人才還有算力資源都嚴重缺乏，呼籲政府儘速提出主權AI戰略。

國科會副主委林法正日前提到，TAIDE是通過開源系統作訓練，若要擁有全球公信力、資料完整，並讓各國願意使用繁體中文的資料庫，國內得適度鬆綁「著作權法」，目前正由數發部研議相關法規。

數發部次長闕河鳴說，如何讓開放式的資料授權給AI，並突破既有法律限制，是今年施政重要目標，但因牽涉複雜，近期將由行政院副院長鄭麗君主持法規研討會議。

立法進度、政策重點

數發部長黃彥男10日在新春記者會上表示，「主權AI很重要是臺灣要有自己的資料和規範」，數發部去年底已研議《促進資料創新利用發展條例》草案，盼在今年完成立法，並打造臺灣的主權AI訓練語料資料庫，希望滿足TAIDE訓練需求。

該條例由數發部資料創新司負責擬定草案，司長莊明芬說明，該條例盼鼓勵機關與產業資料共享，建立資料利他環境、獎勵產業創新等，去年已擬定完成，今年第一季正在和利害關係人，包括中央各部會、地方政府和專家學者等溝通，調整後就會送到行政院討論、進行草案預告。

莊明芬指出，草案重點包括資料是促進數位轉型、經濟發展以及創新的關鍵，因此要確立資料基礎工程，配合AI發展，提供高品質、可信賴的資料讓民間運用，也會擴大資料開放運用，並提出資料創新措施、訂定產業間的資料共享和活絡機制。

另外，除了讓TAIDE團隊使用政府資料進行模型開發，為促進產業共享、降低企業進入門檻，該草案還訂定企業可以免費使用政府開放資料。莊明芬說，部分開放資料為免費使用，部分共享資料減免收費，並獎勵企業資料創新，讓相關成果可以回饋給民眾使用。

今年打造臺灣主權AI訓練語料資料庫

此外，數發部也規劃今年打造臺灣主權AI訓練語料資料庫。莊明芬表示，數發部過去以「開放資料」為核心，約有5萬多筆資料集，其中有1000多筆聚焦在文化部的「國家文化記憶庫」、客委會的「客語語音資料庫」和原民會的原民資料等，希望未來能夠釋出，讓各界做運用。

莊明芬提到，因此去年底已邀請這些語料建置機關進行討論，希望優化語料申請、收費與授權方式，以滿足TAIDE語料訓練需求，部分涉及個資、隱私的資料，將會協助各部會進行去識別化工作，並持續與各部會溝通。

莊明芬說，盼今年建置相關平台，讓各界可運用語料，首先採取「政府先行」，釋出大量多元化、塊狀資料，下一步則採「公私協作」，邀民間共襄盛舉，把資料貢獻出來。

※探索職場，透視薪資行情，請參考【科技類-職缺百科】幫助你找到最適合的舞台！

瀏覽 979 次

覺得不錯的話就分享出去吧！

標籤

2025-02-11

迎頭趕上DeepSeek？數發部拚今年立法、打造主權AI語料庫

臺灣沒有厲害自產AI　問題出在哪？

立法進度、政策重點

今年打造臺灣主權AI訓練語料資料庫

推薦工作

發佈留言取消回覆

最新科技新聞快訊不錯過!!

臺灣沒有厲害自產AI 問題出在哪？

立法進度、政策重點

今年打造臺灣主權AI訓練語料資料庫

推薦工作

延伸閱讀

企業憂關稅衝擊存準率 央行釋疑：新台幣資金流動充裕

川普關稅衝擊大？劉揚偉：鴻海提早5年布局、影響相對小

因應關稅變局！鴻海劉揚偉：AI市場龐大是台灣的機會

回應關稅談判進度 卓榮泰：下周將公布支持方案內容及時程

台美關稅談判！工總理事長潘俊榮：川普是商人、推薦3企業家去談

出席工總會員大會談關稅 郭智輝：經濟部已收集多方產業意見

發佈留言 取消回覆

臺灣沒有厲害自產AI　問題出在哪？

企業憂關稅衝擊存準率央行釋疑：新台幣資金流動充裕

回應關稅談判進度卓榮泰：下周將公布支持方案內容及時程

出席工總會員大會談關稅郭智輝：經濟部已收集多方產業意見

發佈留言取消回覆