從資料到解讀,資料探索的常見手法|專家論點【維元】
資料探索通常在資料清理後,拿到乾淨的資料開始對資料進行的一個探索的過程,旨在瞭解資料的屬性與分佈,發現數據一些明顯的規律,這樣的話一方面有助於我們進行資料預處理,另一方面在進行特徵工程時可以給我們一些思路。
一般會以不同操作資料方式解答我們對資料所困惑的地方,並透過不斷循環「觀察資料發問問題」、「探索資料解答問題」兩個動作來增加對資料的知識量,且在進入訓練模型階段前,資料探索可以提供資訊來決策所要用模型、合適的特徵欄位,增強模型穩定度與精準度。
資料探索是一種「初步觀察與了解資料特性」的分析過程
常見的資料探索手法包含一般化、量化與視覺化三種方式;一般化根據資料的樣貌概括性了解資料特性與分佈;量化方式可以利用描述統計,試圖了解變量間的量化關係;視覺圖表能夠以圖像化的觀點,探索資料間的趨勢分佈。
雖然探索與視覺化這件事本身對於模型是沒有「直接」價值的,不過資料視覺化能夠幫助分析者更加認識資料,有助於進一步對資料做調整,間接達到讓最終分析效果提升的目的。不過在實務上有另外一派說法,認為這樣做可能會介入人為的主觀判斷,導致資料被污染或是被干預。
基本上我們還是會建議拿到資料之後,還是可以進行資料探索的環節,只是真的要對資料操作前務必確認再三。常見的資料探索可以分為「一般化 Generalize(Data Description)」,根據觀察資料的樣貌,概括性的了解資料特性;「量化(Quantitative)」,利用描述統計來量化資料,試圖了解「變量」與「變量間」的關係;「視覺化 (Data Visualization)」,利用視覺與圖表的方式來了解資料的特性。
而其中最常見的方法式資料視覺化(或稱為資料可視化(Data visualization)),被許多學科視為與視覺傳達含義相同的現代概念,涉及到資料的視覺化表示的建立和研究。為了清晰有效地傳遞資訊,資料視覺化使用統計圖形、圖表、資訊圖表和其他工具。 可以使用點、線或條對數字資料進行編碼,以便在視覺上傳達定量資訊。
簡單來說,資料視覺化是一種用圖像表示資料的表現方式。利用視覺化圖表探索資料主要有三個目的:
- 快速了解資料的特性
- 發現尋找資料的趨勢
- 降低資料的理解門檻
最後務必切記,資料視覺化是由「設計」、「故事」與「資料」三者組合而成,目的在於用好的設計串起資料與故事。因此在設計上不求太過花俏絢麗的方式,更多的是對於資料能否客觀有效地呈現,提供使用者從中探索出規則。
因此「圖表」還是一個比較主流的視覺化方式,而非過於客製化或設計感過強的圖形。
嗨,我是維元,目前是一名資料科學與網頁開發的雙棲工程師。近期也擔任科技島社群的駐站專家,持續分享發表對 #資料科學、 #網頁開發 或 #軟體職涯 相關的文章。如果對於內文有疑問都歡迎與我們進一步的交流,都可以追蹤資料科學家的工作日常 Facebook 粉專 或 Instagram 帳號,也會不定時的舉辦分享活動,一起來玩玩吧!
瀏覽 1,976 次