機器學習模型的想法與導入|專家論點【維元】
「大數據」、「機器學習」和「人工智慧」這幾個關鍵字,是這幾年非常熱門的關鍵字。不只是在學術圈和科技業,幾乎在各行各業都試圖跟 AI(A.I. Artificial Intelligence) 掛上一點關係。但其實人工智慧並非是新的概念,早在 20、30 年前就曾經是當時重要發展的技術之一。
我們甚至可以說「人工智慧」是人們在計算機出現時最初的夢想。但受限於當時的技術與硬體限制,很快就宣告了人工智慧是當時難以實現的技術門檻。但隨著網路技術與莫爾定律的發展,軟硬體技術持續有了持續性的增長。
在雲端與大數據等等的技術到位之後,人工智慧中的機器學習技術也在這一波的浪潮中再度的被看見。就如同我們在前一篇文章「談到資料科學,你會想到什麼?」所提到的,我們會這樣定義資料科學,所謂的現代資料科學指的就是大數據加上機器學習的方法,現代資料科學也讓我們看見的人工智慧的新的可能性。
什麼是機器學習呢?
機器學習是人工智慧的一個分支,目標是設計讓電腦自動「學習」的演算法,而非按照明確的程式碼指令運行。機器學習的算法會從資料中學習規律並根據經驗持續優化,最終能實現對未知資料進行預測的目的。
一般來說存取的資料越多越廣、預測的準確度也會越高。目前已廣泛應用於不同的學科與日常應用中。而典型的機器學習模型可以分成「監督式學習(supervised learning)」和「非監督式學習(unsupervised learning)」,這是從模型的特性來定義;從資料探勘的角度,我們也會把他們稱為「分類(Classification)」和「分群(Clustering)」,他們是等價的同義詞。雖然模型能夠自動地從資料中學習出某些「規則」,但我們不一定可以輕易理解規則背後的原理與邏輯。所以我們常常會把機器學習模型稱為一個黑箱或黑魔法,就是因為其背後的可解釋性不夠高,因此存在對模型信任上的疑慮。
在現實世界拓展機器學習應用的三種角度
接下來,會建議幾個將機器學習方法導入到真實世界的應用時需要考慮的觀察點:
- 觀察點 ① 資料夠不夠?資料量的數量夠不夠多,能否對對於母體資料有一定的代表性;欄位與特徵是否夠多元,涵蓋的特徵足不足以反應目標。
- 觀察點 ② 模型的結果的可信度與可用性?通常機器學習找出的結果有兩種常見的盲點:「結論太直覺沒有實質的效益」或「不直覺的結論反而無法驗證其正確性」,蠻多情況下機器學習是幫你開個腦洞與看見不同的機會點。
- 觀察點 ③ 請務必確保資料問題與商業問題的接軌,模型產生結果後的下一步的行動是什麼?
綜合上述三點所言,機器學習是人工智慧的一個分支,主要是設計和分析讓電腦可以自動「學習」的演算法,從資料中獲得規律,並利用規律對未知資料進行預測。更具體來說是利用現有資料預測未來資料的一種方法,人工智慧是一種目的,而機器學習是參考統計而延伸出的方法。
我們一般會把機器學習的演算法稱為模型,就像統計模型這樣。模型就是一種用數學建構出來的算法。你可以想像成資料是真實世界的樣子的部分抽樣,機器學習透過模型去擬合真實資料進而推測世界背後運作的原理。
如果人工智慧跟資料探勘是一種基於資料想要達到的目標,那麼機器學習是實現該目標的方法。
嗨,我是維元,目前是一名資料科學與網頁開發的雙棲工程師。近期也擔任科技島社群的駐站專家,持續分享發表對 #資料科學、 #網頁開發 或 #軟體職涯 相關的文章。如果對於內文有疑問都歡迎與我們進一步的交流,都可以追蹤資料科學家的工作日常 Facebook 粉專 或 Instagram 帳號,也會不定時的舉辦分享活動,一起來玩玩吧!
瀏覽 3,245 次