資料分析技術的過去與現在:關鍵字雖然在更迭,但背後的技術不會消失|專家論點【維元】
資料科學是近期相當熱門的技術關鍵字,是一種「從資料中找關係」的科學方法。但其實資料分析並不是一個新的概念,統計學的量化方法早就廣泛應用於各行各業中。如果你問我為什麼這幾年資料科學再度被重視的話,那我會說,所謂的現代資料科學是指的大數據加上機器學習的方法,其中的關鍵在於這些技術的到位,讓我們看見的從資料驅動人工智慧新的可能性。
技術驅動的演進
隨著計算機技術演進,資料量快速成長、儲存成本下降和雲端環境成熟等客觀條件就位。電腦計算能力大幅提升,帶來的是資料量快速的累積,也因此造就了資料科學的新時代思維。
具體而言,過去科學發展使用演繹方法研究,根據推論求得規律。隨著面臨的問題變得越發復雜,透過演繹的方式面臨瓶頸。然而,透過歸納方法形成另外一種解決問題的觀點。因此,將資料科學與巨量資料推上了顯學。巨量資料分析不同於傳統統計抽樣方法,考慮的是資料母體。利用比實證研究更耗費計算成本的資料驅動的方法,透過全面地分析從資料中挖掘出資料背後的關係。
當前,我們正處於人類有史以來發展最快的時代。透過「資料」與「分析」,運用新的思維,將帶來一場新型的改變。技術驅動的演進,帶著經濟進行結構性改革,走向一個充滿變化的未來。最重要的是,我們必須要把握「創新」的機會,而且是「技術驅動創新」的機會。
巨量資料的技術到位
「根據研究機構 IDC(國際數據資訊公司)的分析,這個世界上的資料正在以每兩年就翻倍的驚人速度增加中。了解大數據、如何利用巨量資料,成了人人關心的重點議題。
麥肯錫全球研究中心的全球巨量資料研究報告指出,全球資料量光是在 2010 年就增加了 70 億 GB,相當於 4 千座美國國會圖書館典藏資料的總和。(7 個你不可不知的大數據定義、巨量資料時代的煉金術)」
我們在前幾期的文章資料科學,你會想到什麼?|專家論點,也有提到所謂的大數據到底是什麼?一般而言,巨量資料的定義是 Volume(容量)大、 Velocity(速度)快 和 Variety(多樣性),但也其他幾種不同的特性,像是 Veracity(真實性) 和 Value(價值) 等等。
基本上來說,巨量資料和傳統資料最大的不同是,資料來源多元、種類繁多,大多是非結構化資料,而且更新速度非常快,導致資料量大增。而要用大數據創造價值,不得不注意數據的真實性。
為什麼巨量資料是一件重要的事情?在麥爾苟伯格在《大數據》一書中這樣說明:「透過更完整的資料分析,透過接近母體的資料量,可以大幅降低傳統抽樣所產生的統計誤差。」換言之,會需要付出更多更快的運算機器,所以巨量資料與計算機技術的進步是相輔相成的。
不過,資料科學也不盡然要盲目地追求「巨量」這件事。大企業能享有巨量資料的規模優勢,但小團隊也有成本及創新上的優勢,因為速度夠快、靈活度高,就算維持小規模,還是能夠蓬勃發展。重要的是,能否掌握資料時代的思維與創新。
關鍵字在更迭,但技術不會消失
隨著資料科學技術的快速演進,很多人可能會擔心被淹沒在新技術的浪潮中。不過有時候只是關鍵字的更迭,背後想解決的問題是不變的 (•̀ᴗ• ) 資料時代席捲而來的不只是資訊界,而是一場全面性的革新。巨量資料帶來的是各個領域的改變,像是 FinTech (金融+科技)、Growth Hacking (行銷+科技)、Health Care(醫學+科技)等等都是隨著資料時代下在跨領域整合下而興起的趨勢。
換句話說,巨量資料/資料思維,需要的是一種跨域的宏觀視野。從幾個市場熱門的討論議題來看,都可以看到資料應用扮演的角色。
嗨,我是維元,目前是一名資料科學與網頁開發的雙棲工程師。近期也擔任科技島社群的駐站專家,持續分享發表對 #資料科學、 #網頁開發 或 #軟體職涯 相關的文章。如果對於內文有疑問都歡迎與我們進一步的交流,都可以追蹤資料科學家的工作日常 Facebook 粉專 或 Instagram 帳號,也會不定時的舉辦分享活動,一起來玩玩吧!
瀏覽 1,006 次