研發大型 AI 模型

圖片來源: freepik

文/洪士灝

ChatGPT 走紅之後,好幾家公司都放出消息說他們有能力訓練大型 AI 模型,有些朋友跑來問我究竟如何。我說我樂觀其成,但是要好好駕馭大型 AI 模型並不容易,然後一個不小心就講了兩個小時。

去年五月應人工智慧基金會的邀請,給了一場20分鐘的演講,題目是「以垂直整合的系統架構與基礎建設提升 AI 能力」,其實談的就是如何有效率地訓練大型 AI 模型(請參考連結貼在留言區的報導,據說5分鐘可讀完),不過我想當場應該沒有幾個人會預料到 ChatGPT 的爆紅。

或許作為一介學者,我可以任性樂觀。事實上我多年來關注於大型 AI 模型的研發,每次演講時都會提到,台灣在資訊科技上得天獨厚,擁有多年耕耘所得的硬體製造基礎,也有相當好的人力資源,如果能夠善用開源軟體,致力於高門檻的軟硬體整合,應能在國際上扮演關鍵的角色。

AI 系統所需的軟硬整合能力,從各類 AI 應用所需的模型、軟體框架、系統軟體、系統架構、硬體設計、晶片製造,都是台灣產業界可以著力的範疇,只是跨領域的垂直整合有其難度,其中最艱難的可能就是要讓業界領袖願意投入這件事。

其實業界領袖很精明,他們知道這件事的重要性,只是做這件事需要資金、人才和商機,最好是三者俱足才做,否則何必放下眼前可賺快錢的機會呢?但是,人才豈是要有就有的呢?不過從老闆的眼中,等到商機出現後再來挖角,不是更省力嗎?更何況,人才的養成需要成本和時間,何必辛苦培育出的人才讓別人挖走呢?再說,人才培育不是大學的責任嗎?

不過,我這幾年很少說什麼批評慣老闆的話了,因為:

(1) 的確有越來越多願意突破上述框架的老闆。
(2) 我寧可多說說如何與願意突破框架的人一起來培育人才,比較有建設性。
(3) 當產業界有足夠的高階研發人才以及正面的轉型案例時,研發文化才有可能轉變,在此之前,多說無益。
(4) 無論有沒有準備好,時候到了遲早都得轉型,這一波的 ChatGPT 就是如此,這時候不用我多說,人家也會積極進取,這時候借力使力、事半功倍。

回歸主題,話說要研發大型 AI 模型,首先要有夠好的系統架構和夠格的基礎建設,否則只是空談,但這件事情光是靠學校的經費根本不夠,唯有靠產學合作或者是國科會(科技部)的支持。

七年前,國內還沒有像樣的基礎建設,懂得系統架構且願意投注於高效能 AI 計算的單位很少,當時鴻海郭台銘董事長有遠見,不僅將高效能計算列為內部發展重點,旗下的鴻佰聘我擔任顧問,同時也贊助台大發展高效能計算,是一個不錯的契機。可惜天不從人願,當時發生了一連串不如意的事件,包括楊校長論文事件、卡管事件、郭董選總統事件,使得原本規劃的捐贈高效能設備與研究計畫案不如預期,不過我們還是在技術方面做了頗多的探索。

還好國網中心在科技部陳良基部長的指示下,建置有能力訓練大型 AI 模型的超級電腦。我一開始以顧問的身份參與規劃,後來在國網中心史曉彬主任的邀請下擔任副主任。當初的願景,是希望賦予產學界從事大型 AI 模型研發的能力,不過光靠基礎建設是不夠的,研發大型 AI 模型還需要研究人員、巨量資料以及時間來產出成果。有趣的是,學界似乎不認為研發大型 AI 模型是值得長期耕耘的「基礎科學研究」,因此在短期績效不夠亮眼的情況下,後續建置的台灣杉三號、四號皆採用傳統科學模擬工作所偏好的 CPU 架構。

今天托 ChatGPT 的福,大家都知道大型 AI 模型的重要性了,國內產官學要如何因應,或是如何善用此一契機來提生研發層次呢?我想我們比起很多國家的技術基礎好很多,有很多好事情正在發生,但也需要有章法。

無論如何,我欣見這一波 ChatGPT 風潮帶動國內業者的關注,如我過往所強調的,台灣的產業界在軟硬垂直技術上有相當多的利基,有很多可關注的議題,例如:

– 如何有效率訓練大型 AI 模型?
– 如何客製化大型 AI 模型以滿足特定用途的需求?
– 如何有效壓縮大型 AI 模型以及設計支援高壓縮率的 AI 晶片?
– 如何將資安與隱私保護技術有效導入大型 AI 模型之訓練與佈署?

以上是我這幾年比較關心的議題,其中都有可能透過軟硬整合提供具競爭力的解決方案。對本土公司而言,不見得什麼都自己做,可以試著和其他公司一起嘗試。

本文由 洪士灝 授權轉載,原文連結

瀏覽 594 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button