驚!全球最大的語言模型BLOOM 問世
隨著科技進步人工智能漸漸影響著人類社會,但與網際網路不一樣的是 AI 極度依賴更大的資料集上訓練更大的模型。為此,由全球1000多名志願者組成的“大科學”(BigScience)研究小組,與AI新創Hugging Face 主導,共同發布大型語言模型BLOOM(BigScience Large Open-science Open-access Multilingual Language Model)。
這是一款擁有1,760億個參數大型語言模型,由法國超級電腦執行運算練 117 天,才在今年完成。包含了可理解的 46 種語言和 13 種程式語言,包含西班牙文、日文、德文、中文或多種印度及非洲語言,並且開放下載存取,目標是通過引入“世界上最大的開放多語言模型”,使人工智能更加民主化。
值得讚許的是,大型語言模型因為開發成本高,以往都是由谷歌或OpenAI (GPT-3)這樣的大公司生產的,並且它們基於各種商業和其他原因限制對其完整模型的訪問使用,在這樣的框架下,不管是學術界、非營利組織或者小公司就很難創建或研究,只有少數擁有資源的公司能完全獲取,而 BLOOM 就是打破這個限制。
但儘管擁有龐大的資料集,BLOOM仍存在著大型語言模型的缺點,因為語言模型並不是真正了解語言,只是透過大量的數據而生成的詞彙,可能會因此宣揚到錯誤的價值觀;例如敏感的種族歧視、宗教或性別歧視等;所以目前在使用BLOOM之前,還需要簽署一份會不斷更新的法律許可,目的是讓使用者能承諾一切使用範圍是正當且合法的。(記者/劉閔)
瀏覽 2,350 次