迎頭趕上DeepSeek?數發部拚今年立法、打造主權AI語料庫
記者/李琦瑋
中國DeepSeek竄起,震撼科技產業,也引發外界擔憂臺灣的AI發展進度,立委葛如鈞日前指出,臺灣自產的大型語言模型「臺德(TAIDE)」,面臨算力資源、繁中語料不足等窘境已久,現在已落後中國一大截。數位發展部10日指出,今年將完成《促進資料創新利用發展條例》的立法,並打造臺灣的主權AI語料庫,把各機關資料開放給TAIDE訓練,未來也將開放民間企業進入和共享。
![數發部長黃彥男表示,盼推動《資料創新應用條例》在今年完成立法,並打造臺灣的主權AI語料庫,滿足TAIDE訓練需求。](https://www.technice.com.tw/wp-content/uploads/2025/02/MODA.jpg)
臺灣沒有厲害自產AI 問題出在哪?
葛如鈞表示,目前由國科會開發的AI模型「可信任人工智慧對話引擎」TAIDE,自去年發表訓練8B大小的Llama 3-TAIDE-LX-8B-Chat-Alpha1模型後,便無消無息,迄今連TAIDE 13B模型都還沒釋出,但DeepSeek R1已達50倍—671B規模;臺灣主權AI的老問題在於繁中語料、研發人才還有算力資源都嚴重缺乏,呼籲政府儘速提出主權AI戰略。
國科會副主委林法正日前提到,TAIDE是通過開源系統作訓練,若要擁有全球公信力、資料完整,並讓各國願意使用繁體中文的資料庫,國內得適度鬆綁「著作權法」,目前正由數發部研議相關法規。
數發部次長闕河鳴說,如何讓開放式的資料授權給AI,並突破既有法律限制,是今年施政重要目標,但因牽涉複雜,近期將由行政院副院長鄭麗君主持法規研討會議。
立法進度、政策重點
數發部長黃彥男10日在新春記者會上表示,「主權AI很重要是臺灣要有自己的資料和規範」,數發部去年底已研議《促進資料創新利用發展條例》草案,盼在今年完成立法,並打造臺灣的主權AI訓練語料資料庫,希望滿足TAIDE訓練需求。
該條例由數發部資料創新司負責擬定草案,司長莊明芬說明,該條例盼鼓勵機關與產業資料共享,建立資料利他環境、獎勵產業創新等,去年已擬定完成,今年第一季正在和利害關係人,包括中央各部會、地方政府和專家學者等溝通,調整後就會送到行政院討論、進行草案預告。
莊明芬指出,草案重點包括資料是促進數位轉型、經濟發展以及創新的關鍵,因此要確立資料基礎工程,配合AI發展,提供高品質、可信賴的資料讓民間運用,也會擴大資料開放運用,並提出資料創新措施、訂定產業間的資料共享和活絡機制。
另外,除了讓TAIDE團隊使用政府資料進行模型開發,為促進產業共享、降低企業進入門檻,該草案還訂定企業可以免費使用政府開放資料。莊明芬說,部分開放資料為免費使用,部分共享資料減免收費,並獎勵企業資料創新,讓相關成果可以回饋給民眾使用。
今年打造臺灣主權AI訓練語料資料庫
此外,數發部也規劃今年打造臺灣主權AI訓練語料資料庫。莊明芬表示,數發部過去以「開放資料」為核心,約有5萬多筆資料集,其中有1000多筆聚焦在文化部的「國家文化記憶庫」、客委會的「客語語音資料庫」和原民會的原民資料等,希望未來能夠釋出,讓各界做運用。
莊明芬提到,因此去年底已邀請這些語料建置機關進行討論,希望優化語料申請、收費與授權方式,以滿足TAIDE語料訓練需求,部分涉及個資、隱私的資料,將會協助各部會進行去識別化工作,並持續與各部會溝通。
莊明芬說,盼今年建置相關平台,讓各界可運用語料,首先採取「政府先行」,釋出大量多元化、塊狀資料,下一步則採「公私協作」,邀民間共襄盛舉,把資料貢獻出來。
※探索職場,透視薪資行情,請參考【科技類-職缺百科】幫助你找到最適合的舞台!
瀏覽 154 次