資料科學的2種流派:機器學習與統計模型|專家論點【維元】
資料科學就是一種「從資料中找關係」的科學方法,目標是利用資料學習知識的學科目標是通過從資料中提取出有價值的部分來生產資料產品。雖然這句話看起來很簡單的,不過其實背後的水很深。
我們來說文解字一下,#資料 可能是「過去」、「現在」或「未來的資料」,或是從量級分成「大數據」、「小資料」或「厚資料」;另外也有「開放資料」跟「內部資料」的不同來源,更不用說各種不同的資料型態。#找關係 也有很多種找法,例如「#可以解釋的因果關係」、「#很常一起出現但不一定有關係的關聯關係」或是「#很像又不能太像的預測關係」都是資料科學中不同的方法。
前幾期的文章我們有跟大家分享過「機器學習模型的想法與導入」和「資料科學的基石知識 – 統計學」兩篇文章,今天想再跟大家往下來比較這兩者間的差別。
機器學習與統計模型有什麼不同?
一般來說,這兩個項目所研究的目標相近,不同的是使用的背景不同。機器學習是資工領域發展的議題;統計模型是統計學所探討的領域。這是一張有趣的圖來說明資料科學中之間錯綜複雜的交織關係:
首先,不管是機器學習或是統計模型都有一個共同的目標 - Learning from Data. 這兩種方法的目的都是透過一些處理資料的過程中,對資料更進一步的瞭解與認識。
來看看這兩者在科學上的簡單定義:
- Machine Learning: an algorithm that can learn from data without relying on rules-based programming.
- Statistical Modelling: formalization of relationships between variables in the form of mathematical equations.
換個角度,看看實際上使用上有什麼差異。這是一張 McKinsey 用於客戶風險預測問題的結果,有 A 、 B 兩個變數。綠色線是統計方法得出的規則;等曲線是機器學習方法發現的,兩者皆能夠指出風險較高的趨勢。
統計方法用一個方程式去描述分類問題,將資料找出一個分割線將結果分成兩類。然而,從機器學習的方法找出來的是一圈一圈的等曲線,看起來似乎可以得到更廣泛的結果,而不只是簡單的分類問題。
機器學習是從資工及人工智慧中發展而來的領域,透過非規則的方法去學習資料分布的關係。統計模型是統計學中利用這種變量去描述與結果的關係。統計模型是基於與說嚴格的限制下去進行的,稱為假設檢定,這也是與機器學習方法上的不同。
基於假設檢定下的發展,使得統計模型能找出更貼近「現有資料」的趨勢。然而,預測的目的是為了找出「未來資料」或所有資料,但假設會使得資料太貼近現有資料(機器學習中稱為 過擬和的一種問題)。
嚴格的假設也成了統計學習的一種雙面刃,有一句資料科學中流傳的名言是這樣講的:the lesser assumptions in a predictive model, higher will be the predictive power.
從數學觀點解讀兩種模型
機器學習
一種不依賴於規則設計的數據學習算法;計算機科學和人工智慧的一個分支,通過數據學習構建分析系統,不依賴明確的構建規則。
Output Y = f( Input X ): X -> Y
統計模型
以數學方程形式表現變量之間關係的程式化表達;數學的分支用以發現變量之間相關關係從而預測輸出。
Dependent Variable Y = f( Independent Variable X ) + error function
嗨,我是維元,目前是一名資料科學與網頁開發的雙棲工程師。近期也擔任科技島社群的駐站專家,持續分享發表對 #資料科學、 #網頁開發 或 #軟體職涯 相關的文章。如果對於內文有疑問都歡迎與我們進一步的交流,都可以追蹤資料科學家的工作日常 Facebook 粉專 或 Instagram 帳號,也會不定時的舉辦分享活動,一起來玩玩吧!
瀏覽 1,572 次