談到資料科學,你會想到什麼?|專家論點【維元】
資料科學曾經被《哈佛商業評論》譽為「21 世紀最性感的工作」,更是許多公司在進入數位轉型中重要的一環。數據的使用已經不在只是某些分析部門的工作,而是每一個數位職能者都應該具備的底層能力。
那究竟什麼資料科學呢?根據維基百科中的定義:「資料科學(Data Science)又稱為數據科學,是一門 利用資料學習知識的學科目標是通過從資料中提取出有價值的部分來生產資料產品。它結合了諸多領域中的理論和技術,包括應用數學、統計、圖型識別、機器學習、資料視覺化、資料倉儲以及高效能計算。 資料科學通過運用各種相關的資料來幫助非專業人士理解問題。」
➤ 簡單來說,資料科學就是一種「從資料中找關係」的科學方法。
雖然這句話看起來很簡單的,不過其實背後的水很深。我們來說文解字一下,資料可能是「過去」、「現在」或「未來的資料」,或是從量級分成「大數據」、「小資料」或「厚資料」;另外也有「開放資料」跟「內部資料」的不同來源,更不用說各種不同的資料型態。
找關係也有很多種找法,例如「可以解釋的因果關係」、「很常一起出現但不一定有關係的關聯關係」或是「很像又不能太像的預測關係」都是資料科學中不同的方法。
現代資料科學 = 大數據 + 機器學習
社群網路與物聯網的興起大副提升了資料增長的量級,這些由更大量的資料所組成的資料集被稱為大數據(Big Data)。這樣的資料量級通常是傳統單一的計算機限制中難以處理程度,可能需要搭配分散式的硬體架構才能運作。而隨著硬體技術的進步與與資料分析的技術逐漸成熟(例如機器學習、資料探勘等等),大數據分析已經成為了資料科學的主流技術。比起以往的統計分析,現在能夠享有更大更完整資料所來的資訊,更多是過去不容易挖掘的。大數據扮演一個資料科學技術上的承先啟後,開啟了現代資料科學的全新時代。
一般而言習慣用「V」來描述大數據的資料特性,最常見的是用 種類(Variety)、速度(Velocity)、量級(Volume) 3 個 V 來描述(最多有看到 8 個 V 的定義)。
從資料量的角度來看,通常會大到一台電腦無法處理的量需要利用分散式運算才有辦法處理,常見的技術例如 Hadoop、Ceph 等等。大數據會盡可能收集可以被分析的資料,當抽樣接近母體的資料量作為目的。不過大數據看似無所不在,但你的大數據等於對方的大數據嗎?實際上大數據是一個相對「模糊」的字,在使用的時候務必要小心。
瀏覽 1,742 次