生成式AI背後的推手 「LLM大型語言模型」
記者/周子寧
AI浪潮席捲全球,一時間,講壇節目、社群平台甚至人們茶餘飯後的談資都充滿AI相關的話題。隨著大眾目光放向人工智慧的區塊,更多相關的專業詞語出現在大家視野中,而頻繁被提起的「LLM」就是其中一員,究竟「LLM」是甚麼?又與AI有甚麼樣的關聯呢?
LLM是甚麼?
LLM(Large Language Model,大型語言模型)是一種深度學習模型,可以透過記憶文本數據學習大量的知識。LLM大型語言模型內建超過一千億個參數的自然語言處理系統(natural language processing,簡稱NLP),幫助LLM吸收巨量資料數據並學習字句邏輯,包含文章、影音、圖片和書籍等都在學習範圍,學習完成後可應用在問答、翻譯和生成文本上。
而LLM大型語言模型之所以被冠以「大型」,是因為該模型在學習時可以自主更改的參數量極高,而這也代表LLM的知識庫存遠比一般學習模型豐富、應用範圍更廣,因此被稱為「大型」語言模型。
更多新聞:Bard還是不夠真實?捏造使用者不曾寄出的mail
LLM跟AI有甚麼關係?
如上段所言,LLM(Large Language Model,大型語言模型)是一種深度學習模型,而其工作原理就是通過獲取的文本數據來分析文字邏輯,從而由大量的數據庫中生成新文本。這樣的功能描述是不是讓人頓感熟悉?沒錯,最近大放異彩的ChatGPT功能也相近於此,而ChatGPT就是其中一種LLM的應用。
說到這裡或許有些人感到混淆:ChatGPT是生成式AI?但ChatGPT又是其中一種LLM?那LLM跟AI是甚麼關係?其實AI並不是特定「某一種機器或程式」,AI是一種泛稱。簡單來說,AI(Artificial intelligence)是泛指所有人工智慧,而LLM(Large Language Model,大型語言模型)就是其中一種類型的AI。
更生活化一些的說明:AI就像是「麵」這種統稱,而裡面分支出來的義大利麵、油麵、雞蛋麵,就是LLM一類的功能性程式模型。
LLM 的實際應用
LLM如何運算與應用?普遍而言,LLM都是在未經過標記的大型數據庫上經過預先訓練,再根據個別需求微調,同時加入少量的、已經標記(賦予上下文含意)的數據集。訓練的步驟為:
1.文字數據轉換為數位形式
2.隨機分配模型參數
3.傳送文本數據的數位形式傳到模型中
4.使用損失函數來測量模型的輸出與句子中實際的下一個單詞之間的差異
5.優化模型的參數以最大程度地減少損失
6.最後重複該過程,直到最終成果達到可接受的精確度。
在訓練完成後,LLM的應用範圍極廣,適用但不限於各種產業與相關軟體,例如:智能客服、生物語言處理、醫療諮詢、智慧機器人和各類代碼與文本生成等等。
LLM兩面觀
LLM大型語言模型可以快速生成文本跟消化大量資料,有著可應對客製化、節省時間與人力、全理性判斷等等優點,但LLM也有短版。大型語言模型的建構通常需要長達數月的時間,以及極度高昂的費用。而完成後的持續研發與維護同樣需要豐厚的投資,同時如何獲得足夠豐富與正確的學習數據也是研發LLM的一大難處。
除此之外,儘管LLM學習速度高、吸收範圍廣,但LLM對於世界的理解只限於使用者給予的資料,因此很容易在數計集編寫有漏洞或是錯誤的狀況下,造成LLM被使用者或是吸收的資料誤導,從而生成出錯誤資訊、不當發言甚至是被誘導出違法言論。
總體來說,LLM大型語言模型是一種強大精密的工具,能夠理解和生成各種語言,但同時不論是LLM或是其他AI,本身都沒有主觀意識跟善惡之分,因此在使用上仍需對它們的能力和限制先做了解。
瀏覽 2,207 次