人工智慧不過就是統計學?|專家論點【史塔克實驗室】

圖片來源:freepik

你們有聽過人家討論,人工智慧跟機器學習後面很多演算法不過就是統計學模型嗎?

所以其實機器學習的理論早就出現幾十年了?

其實也沒有說錯,以人工智慧、機器學習最經典的模型演算法「類神經網路」來舉例,在1943年就已經被設計出來了,但是由於龐大的計算要求和當時存在的計算能力的限制,在當年根本無法做出什麼有用的應用。

直接近幾年,半導體的技術不斷進步,讓硬體的運算效能越來越好,使機器學習變成顯學。 回到一開始說的,如果統計學如果是機器學習之母,那為什麼沒有看到統計系,去多學習機器學習這門課呢?

最大的原因是二者在觀念上有很大的差異。

圖片來源:史塔克實驗提供

機器學習重視預測結果,而統計學在乎因果推理

有些統計學的學者會認為,人工智慧其實就是統計學的延伸,只不過用了一個很華麗的辭藻包裝,當然也有一些不同的聲音,但如果不是接觸過二種學科的人,可能會被這些看似高深、實則含糊的論述搞得霧煞煞。

我們這篇文章就來看看是否能簡單說明,並用幾個例子解釋。

統計學是對於數據的研究,統計的模型主要是用於推斷數據中的關係,以及建立能夠預測未來值的模型,通常會花非常多功夫在前者(數據推斷),而且統計學家非常注重這一點。

使用統計模型來確定這些數據之間是否具有統計顯著性以及可解釋性。在統計模型的構成中,會把沒有必要的一些因素捨去,希望讓實驗結果更加具有解釋價值。如果今天實驗的目的是想證明數據之間的關係,具有一定程度的統計顯著性,那就推薦使用統計模型而不是機器學習。

講到機器學習,機器學習的目的是獲得一個可以進行重複預測的模型,預測結果才是重點,通常不關心數據之間的解釋性,雖然也衍生出很多很多黑盒子的可笑現象,科學家無法解釋模型判讀的原因,使得許多數機器學習模型缺乏可解釋性,很難證明數據之間的關係。但近幾年在科學論文上已經越來越多人重視解釋性這一塊了,畢竟不希望讓機器學到垃圾,形成「Garbage in Garbage out」的現象。

所以其實在學機器學習的科學家們,最好也是要有一點統計學的背景知識,如果沒有統計學的基礎觀念會鬧出很多笑話。

很多人會亂解釋因果關係,或者誤認因果關係的方向。例如海灘上有冰淇淋店家,而當冰淇淋銷量最高的時候,溺水事件的數量也最高,冰淇淋的賣量跟溺水人數成正比,用皮爾森積動差相關係數來計算的話,二個數值一定有相關性。

如果有人看到這個數據,就直接下結論說「多吃冰淇淋會造成溺水」,是個很大的邏輯謬論,是因為冰淇淋賣最好的時候,通常也是天氣最熱、最多人從事水上活動的時候,而越多人從事水上活動,自然也就會有越多溺水事件。

有相關性但不等於因果關係,這個在統計學上是非常嚴謹的,但是在機器學習上,並不會在意這些東西,如果要預測溺水人數,在機器學習的思維,會把能用的數據全部拉進來計算,再透過一些特徵選擇相關技術,讓機器自己學習哪些特徵有用、哪些沒用。

總之,如果沒有很強的統計學背景,大家仍然可以使用學習機器模型來得到一些答案,現在使用機器學習來應用已經變得非常方便,但筆者認為大家仍然需了解一些統計的觀念,以防止過於誇張的黑盒子,還有避免自己思考出似是而非的推論。


如果大家喜歡我的內容,可以用一杯咖啡的金額贊助讓我更有動力創作。

斗內連結:http://bit.ly/3u71zAH
如果想看我更多東西,可以踏入傳送門進入我的領域: https://portaly.cc/starklab2020

裡面有我的podcast節目、程式線上課程、產業分析文章、程式實作分享文章,歡迎來參觀!

瀏覽 3,105 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button