微軟發布ML.NET 2.0 改善文字處理與AutoML功能
微軟已在先前正式推出.NET 7,近日又更新了跨平台針對.NET應用程式的機器學習框架ML.NET,最新發佈版本2.0,這個版本更新重點包含文字分類和語句相似度API,並且改進自動化機器學習功能。
ML.NET 2.0版本可以更好的支援文字分類場景,所提供的文字分類API可供用戶訓練模型,以分類文字資料,開發者可以透過模型建置器(Model Builder),來使用微軟的預訓練模型,並以文字分類API及資料來微調模型。
對此,微軟提到,這個自定義文字分類模型,是由微軟研究院以最新深度學習技術訓練而成,該文字分類功能支援CPU和GPU在本地端進行訓練,至於GPU的規格,除了需要能夠與CUDA相容之外,建議至少擁有6 GB專用記憶體。
此外,ML.NET 2.0還加入了語句相似度的API,與文字分類API底層使用相同TorchSharp NAS-BERT模型,差異的部份在於語句相似度API提供兩個語句的相似度數值,而不是預測類別。
由於要啟用文字分類和語句相似度等自然語言處理功能,ML.NET就必須要有能夠處理文字資料的方法,這通常需要使用到Tokenizer的技術;因此,微軟使用英文的Roberta模型來實作Tokenizer,也在Microsoft.ML.Tokenizers NuGet套件中發布ML.NET內的Tokenizer API,開發者就可以使用套件來匯入自定義詞彙表,並使用BPE Tokenizer來處理文字資料。
微軟也改進自動化機器學習(AutoML)功能,能夠自動化機器學習應用資料的過程,支援開發者在模型建置器和ML.NET CLI的開發體驗。(記者/竹二)
瀏覽 621 次