程式設計語言  饒富新意的多面向開發

目前機器學習新創公司Hugging Face,從2021年開始領導開發支持多語言的BLOOM(BigScience Large Open-science Open-access Multilingual Language Model),有助於長期以來人工智慧經常忽略的多語言領域的發展。其實BLOOM的架構類似於OpenAI的GPT-3大型語言模型(large language model),但最大差異在於BLOOM是多語言的,而GPT-3是單語言的。

示意圖:123RF

BLOOM是由法國的Jean Zay超級計算機所建立和訓練而成的,而BLOOM從一開始就被設計為多語言的,透過Hugging Face工程師的描述,BLOOM還被納入了大量程式語言的數據,因此它目前不僅支持46種人類語言,還有13種程式語言。

Hugging Face運用了Nvidia Megatron和微軟DeepSpeed,為了讓數據科學家訓練大型語言模型所設計的開源項目,BLOOM需要這種以PyTorch機器學習框架為基礎的開源項目,如此一來才能讓BLOOM模型是多語言的。

雖然大型語言模型是自然語言處理的一小部分,但語言模型有其必要性,它用來建立人工智慧互動和應用的基礎,但目前世界上多數人工智慧語言模型基本上都只包含英文、中文,BLOOM則是特別針對法語、西班牙語和阿拉伯語領域近一步擴展這些過去沒有觸及的大型語言模型。

除此之外還有前述所提及的程式設計語言的包含,表示BLOOM也涉及使用人工智慧進行程式開發,如GitHub較早的領先者旗下 Copilot在6月底開始普遍運用,因此這是一個新興領域,程式開發已然進入新的時代,而BLOOM未來預計會成為優秀的編碼應用平台,也可能會有意想不到、富有新意的用法。(編譯/施毓萱)

資料來源:

https://venturebeat.com/2022/07/12/ai-goes-multilingual-with-hugging-faces-bloom-large-language-model/

瀏覽 1,507 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button