有了模型然後呢?從資料模型到數據產品,你還需要具備這一思考|專家論點【維元】
從實驗資料到真實資料
在初期模型訓練過程中,可能會有「比較嚴謹」的分析過程。例如資料會經過標準的抽樣過程,資料也必須滿足一定的統計代表性。但隨著大數據(Big Data)的觀念跟方法逐漸成熟,比起嚴謹可能更重視「可用」與「有效」。
在《Big Data》這本書中,告訴我們在資料量夠完整的情況下對於資料的誤差容忍性是比較強的。不過這不代表可以忽略資料搜集的量測誤差,建議對統計解讀有興趣的朋友可以參考 那些關於「大數據」的謬論:不要再說樣本即母體了! 和 大數據與偏差樣本 這兩篇文章。所以從實驗資料到真實資料的情境中,會有幾個現實需要面對:
- 收集到的資料可能更多、更快、更髒
- 產生的結果通常是比較模糊的
需要思考的是如何在有限的時間中,產生可以用的模型。
從模型到系統部署
模型跟報告是相對抽象跟靜態的,可能難以讓使用者直接有感。因此,從資料模型到數據產品的另外一個重點在於「如何將模型部署成一個可持續使用的線上系統」。例如像推薦系統或是圖形辨識系統之類的系統,就是以應用為目的,模型只是其中的部分而已。
從這些角度來看,是否可以更早期就把最終的應用考慮進來,或是需不需要讓資料料工作者也具備系統部屬的產出能力都是打造數據產品時的重點。
而最近流行的 DataOps、MLOps 和 AIOps 各種 Operation 方法,就是在探討如何導入敏捷開發的原則。讓資料開發的 Pipeline 可以有更好的分析、部署、迭代的過程,進而實踐自動化運行的目標。
嗨,我是維元,目前是一名資料科學與網頁開發的雙棲工程師。近期也擔任科技島社群的駐站專家,持續分享發表對 #資料科學、 #網頁開發 或 #軟體職涯 相關的文章。如果對於內文有疑問都歡迎與我們進一步的交流,都可以追蹤資料科學家的工作日常 Facebook 粉專 或 Instagram 帳號,也會不定時的舉辦分享活動,一起來玩玩吧!
瀏覽 1,777 次