跟機器人對話 一窺ChatGPT運作模式
編譯/莊閔棻
為ChatGPT、微軟的Bing聊天機器人和Google的Bard,提供動力的人工智慧可以進行類似人類的對話,並就無窮無盡的話題寫出自然、流暢的散文,還可以執行複雜的任務,如編寫程式碼到計畫派對等。
但這一切是如何進行的呢?為了回答這個問題,《紐約時報》表示,我們必須先從「大型語言模型」(LLM)開始說起。
《紐時》專欄作家Kevin Roose表示,假設我們要從頭開始建立一個大型的語言模型,將可以讓我們了解這些機器人是怎麼運作的。他假設說,我們要試圖建立一個LLM來幫助我們回覆電子郵件,並把它叫做MailBot。以下是創建MailBot的步驟:
- 第一步:設定一個目標
Kevin Roose指出,每個人工智慧系統都需要一個目標。研究人員將此稱為目標函數(Objective Function)。它可以很簡單,如:「贏得盡可能多的國際象棋比賽」。也可以很複雜,如:「只用蛋白質的氨基酸序列,預測蛋白質的3D形狀」。
而大多數大型語言模型都有相同的基本目標函數,就是:給定一個文本序列(sequence),猜測接下來的內容。
- 第二步:收集大量的數據
接下來,為了教MailBot如何寫作,我們需要收集訓練數據。理想情況下,我們將把一個巨大的文本庫放在一起,通常是從網路上蒐集來的數十億頁部落格文章、推文、維基百科文章和新聞文章等。也可以授權一些外語文本,這樣MailBot可以以更多語言寫電子郵件。一般來說,擁有的數據越多,來源越多樣化,模型就會越好。
而在將數據輸入模型之前,我們需要將其進行標記並分解為「字元串序列」,這些標記可以是單詞、短語甚至是單個字符。簡單來說,就是將文本分類、標記讓模型可以更容易的分析。
- 第三步:建立你的神經網路
一旦我們的數據被標記化,我們就需要組裝人工智慧的「大腦」,也就是一種被稱為神經網路的系統。這是一個由相互連接的節點(或「神經元」)組成的複雜網路,並可以用於處理和儲存資訊,就像我們的大腦一樣。
Kevin Roose說,對於MailBot來說,我們則要使用一種相對較新的神經網路類型,稱為「Transformer模型」。作為一種採用自注意力機制的深度學習模型, Transformer模型旨在處理自然語言等順序輸入資料,可應用於翻譯、文字摘要等任務。
- 第四步:訓練你的神經網路
接下來,該模型將分析數據,逐個標記,識別模式和關係。如,它可能會注意到「親愛的」後面經常有一個名字,或者「問候」通常會在名字之前。透過識別這些模式,人工智慧就能學會如何建構有意義的訊息。該系統還可以發展對文章內容背景的判斷,如,取決於其他語句,它將會知道到「bank」一字不只有「銀行」的意思,還有「河畔」的意思。
當它學習這些模式時,Transformer模型就會把人類語言轉化成極其複雜的數學計算法,而其將使用被稱為「參數」(parameters)的數值來追蹤這些關係。許多最好的LLM通常會有幾千億個參數或更多。
訓練可能需要幾天甚至幾週的時間,並需要巨大的計算能力。但是一但完成了,它幾乎就可以開始寫郵件了。
- 第五步:微調你的模型
一旦訓練好一個大型語言模型,就需要為特定的工作進行校準。如,一家醫院使用的聊天機器人可能需要理解醫學術語。
舉例來說,為了對MailBot進行微調,我們可以要求它生成一堆電子郵件,並僱用人來對其準確性進行評分,然後將評分反饋給模型,直到它得到改善。就像ChatGPT和其他公開的人工智慧模型現在正在做的事情一樣。
- 第六步:啟用
最後,一但MailBot完成了訓練和微調,它就可以使用了。用戶只需要為它建立某種用戶界面,如將其作為一個插入電子郵件應用程式的外掛軟體,它就可以開始發送電子郵件了。
參考資料:The New York Times
瀏覽 624 次