講師:蕭量超 雲數智能創辦人暨執行長 現任雲數智能董事長暨總經理,專注於資料科學及人工智慧運算架構與超級電腦運算等領域。參與多項歐洲地區科技創新研究計畫,內容包含GPU Accelerator,Data Analytics曾主辦多場歐洲地區人工智慧論壇及CIO論壇,教授人工智慧與企業應用轉型等相關議題,協助銀行業、物流業等產業導入AI產品並解決企業痛點。 一、初探ChatGPT的運作法則 大家可能會好奇,電腦在有AI和沒有AI的世界中有什麼差別?以往我們打開電腦,通常會做的就是打開Word或Excel檔,將文字或資料整理完後再將檔案儲存下來。也就是說,電腦長久以來都是在處理和儲存我們輸入的資料。而這些資料也就是所謂的數據,但不管是Word檔、Excel檔或圖片,這些都只是存在我們個人的電腦裡,它們對於AI來說其實與我們的現實世界毫無關聯。後來有了大數據的概念後,我們才開始將這些數據集中處理。 而為了要讓電腦能夠認知到現實的世界,人們便開始將這些資料向量化、壓縮以及標註特徵,讓AI得以運用這些數據。所謂的向量化便是將我們所看到的東西變成數字,當我們獲得的參數愈多,數據的定義就會愈準確。向量化之所以重要是因為它能夠將資訊轉換成電腦看得懂的形式,而向量化後會形成數層陣列空間,當這些陣列空間組成後,電腦就會比較方便處理資訊並從中找出規律。舉例而言,當我們在訓練大型語言模型時,我們會將常用的約兩千個國字做為訓練資料,而這些常用字就是一個小型參數。不過,這些國字單獨存在時有其意義,但當字變成句子時就可能有其他意義。像是當我們說了「今天」,後面可能會接上「天氣」,這時AI就必須去利用我們向量化後的資料計算,找出我們在「今天」後面可能最常接的字是什麼。當然,我們在向量化資料時,也必須同時進行資料壓縮,將許多資料中不重要的元素,像是空格或是多餘的符號清除,避免在資料處理過程中浪費資源。除此之外,標註數據特徵也對於AI能否精準推算相當重要。上述例子中的「今天天氣」透過運算組成後,AI可能一開始不會知道「天氣」後要接什麼會比較好,所以若我們不標記特徵,可能AI在計算後就會接上動物名詞。因此,我們要標註出天氣後可能會接的是「很好」或「很差」等,避免AI計算過程中的偏差。 二、你到底需要多大的大型語言模型? 我們都知道,ChatGPT使用的模型架構為transformer,而transformer模型為Google於2017年所發表的一個架構。但有趣的是,Google和OpanAI分別使用了transformer中的「編碼器」(encoder)和「解碼器」(decoder)。編碼器就像克漏字填空,它可以理解使用者的問題,並從前後文推論,理解並填補句子與句子中間所缺乏的部份;解碼器設OpenAI所著重的功能,它可以理解並回應使用者的問題,不管問題為何,它都可以找出能夠回答使用者問題的字句。 那麼我們到底需要多大的語言模型呢?我們都知道ChatGPT可以跟我們天南地北的聊天,只是它無法回答在訓練資料時間範圍外的問題。然而,假設我們想要用ChatGPT作為客服機器人,那麼如果它的回應跳脫出客戶希望的回應時,再多的訓練資料也是白搭。因此,當我們在思考需要多大的大型語言模型時,我們應該要先了解自己的需求。且我們應該要借助的並非它背後龐大的資料庫,而是ChatGPT的邏輯架構,並將與我們的專業或公司業務相關的資料提供給它作為訓練資料。如此一來,我們就可以有效防止AI瞎掰,甚至還可以讓它引導客戶應該針對那些方面提問,提升客戶的使用者經驗。 三、關於ChatGPT私有化,你需要的事 隨著AI的快速發展以及其所帶來的便利性,現在有愈來愈多的公司都想將ChatGPT私有化,但在私有化ChatGPT之前,我們必須了解如何才能節省成本,又能夠讓私有化的ChatGPT成為公司的好幫手。 人工智慧的實現包含兩個重要環節,即「訓練」(training)和「推理」(inference)。訓練指將許多資訊提供給人工智慧進行訓練,讓它能夠有足夠的先備知識。訓練的過程就如同我們的學習歷程,我們從幼稚園到大學或研究所畢業,在學校中透過課本等所謂的「已知資料」中學習,吸收廣泛以及專業知識。而推理指的則是,人工智慧在面對使用者的問題時,可以基於它所習得的資料,經過計算之後回應。這就好比一位政治科學的學生從學校畢業後,若工作時需要研析國際情勢,他/她就必須利用求學時在學校習得的知識,推斷國際情勢未來可能的走向與變化。然而,即便這個學生再怎麼厲害,國際情勢不可能永久不變,所以該學生就必須再自我或回到學校再度進修,讓自己在未來的判斷上能夠更準確、更貼近現實。同樣地,一個AI模型推理了一段時間後會有裂化的現象,此時我們就必須再重新從它推理過程中所得到的新資訊中再將它加以訓練,以確保它推理的準確性。 那麼,我們應該如何降低將ChatGPT私有化的成本呢?其實關鍵在於AI的訓練端,因為它是人工智慧是否能精確判斷的關鍵。當公司在私有化ChatGPT時,必須思考要讓AI處理的工作在運算時需要低精度或高精度的晶片。若使用低精度的晶片就能夠處理好我們希望AI完成的工作,但我們卻使用了高精度的晶片,那麼效能其實不一定更好,甚至還因為要得到高精度的晶片而耗費了大量的資金。而只要我們能夠將AI的訓練端做好,那麼推理端就可以具有高準確度和高回應速度,且耗能也會下降,將ChatGPT私有化的成本也會降低。 四、結語 從本次課程的內容,我們可以得出三點ChatGPT私有化的挑戰。第一,ChatGPT發展相當快速,目前也已開始發布很多開發工具。然而ChatGPT雖然方便,但許多企業仍有安全與保密的疑慮。若要將ChatGPT私有化,則公司必須先確保自己輸入的資料不會變成其他企業的肥料。第二,雖然ChatGPT擁有龐大的資料庫,但我們在使用這樣的大型語言模型時往往是弱水三千,只取一瓢飲。因此我們必須思考並清楚界定需要生成式語言模型為我們做什麼,以及它應該知道的資料範圍在哪,以免過多的資料變成垃圾,甚至影響AI的準確度。最後,AI的訓練是它是否能夠具備精準的推理與判斷能力的關鍵,所以我們應該要將精力放在優化AI的訓練,提高模型的準確度。如此一來,我們在私有化ChatGPT的過程中所耗費的資源就能夠有效減少,讓我們擁有高CP值得私有化的大型語言模型。 【若想回顧完整版課程影音,請點選此連結;有任何問題或分享,也歡迎在本文底下留言。】