【學長姊帶路】數據治理要怎麼做?
原標《數據治理怎麼做?這篇萬字長文終於講清楚了!》
文/帆軟數據應用研究院 汪建輝
引言:
股份制改革對我國銀行業來說只是一個開始,企業在風險管理、創造價值等方面還有很長的路要走。風險管理要求提供精準的數據模型、創造價值要求充分銀行數據資產,這是數據治理的外部推動因素。此外,隨著第三次工業革命的到來,銀行業也需要進入定製化時代,以更低的成本,生產多樣化的金融產品,從而滿足不同顧客的不同需求。對數據本身而言,業務發展加快了數據膨脹的速度,也帶來了數據不一致等問題,業務部門的頻繁增加和剝離同樣會對數據治理提出挑戰。這些日益複雜的內外因決定了我國銀行業對數據治理的超高標準要求,而目前對應的經驗能力卻稍顯薄弱。
數據治理不僅需要完善的保障機制,還需要理解具體的治理內容,比如我們的數據該怎麼進行規範,元數據又該怎麼來管理,每個過程需要哪些系統或者工具來進行配合呢?這些問題都是數據治理過程中最實際的問題,也是最複雜的問題,今天我們將從數據治理的各個核心領域來解答這些問題。
銀行數據治理核心領域
每個數據治理的領域都可作為一個獨立方向進行研究治理,目前總結的數據治理領域包括但不限於以下內容:數據標準、元數據、數據模型、數據分布、數據存儲、數據交換、數據生命周期管理、數據質量、數據安全以及數據共享服務。
同時各領域之間需要有機結合,如數據標準、元數據、數據質量等幾個領域相互協同和依賴。通過數據標準的管理,可以提升數據合法性、合規性,進一步提升數據質量,減少數據生產問題;在元數據管理的基礎上,可進行數據生命周期管理,有效控制在線數據規模,提高生產數據訪問效率,減少系統資源浪費;通過元數據和數據模型管理,將表、文件等數據資源按主題進行分類,可明確當事人、產品、協議等相關數據的主數據源歸屬、數據分布情況,有效實施數據分布的規劃和治理。
數據治理領域是隨著銀行業務發展而不斷變化的,領域之間的關係也需要不斷深入挖掘和分布,最終形成一個相互協同與驗證的領域網,全方位的提升數據治理成效。
1.數據模型
數據模型是數據治理中的重要部分,合適、合理、合規的數據模型,能夠有效提高數據的合理分布和使用,它包括概念模型、邏輯數據模型和物理數據模型,是數據治理的關鍵、重點。數據模型包含三個部分,數據結構、數據操作、數據約束。
- 數據結構。數據模型中的數據結構主要用來描述數據的類型、內容、性質以及數據間的聯繫等。數據結構是數據模型的基礎,數據操作和數據約束都基本是建立在數據結構的之上的。不同的數據結構有不同的操作和約束。
- 數據操作。數據模型中的數據操作主要用來描述在相應的數據結構上的操作類型和操作方式。
- 數據約束。數據模型中的數據約束主要用來描述數據結構內數據間的語法、詞義聯繫、他們之間的制約和依存關係,以及數據動態變化的規則,以保證數據的正確、有效和相容。
2.元數據管理
元數據分為業務元數據、技術元數據和操作元數據,三者之間關係緊密。業務元數據指導技術元數據,技術元數據以業務元數據為參考進行設計,操作元數據為兩者的管理提供支撐。
- 業務元數據。業務元數據是定義和業務相關數據的信息,用於輔助定位、理解及訪問業務信息。業務元數據的範圍主要包括:業務指標、業務規則、數據質量規則、專業術語、數據標準、概念數據模型、實體/屬性、邏輯數據模型等。
- 技術元數據。它可以分成結構性技術元數據和關聯性技術元數據。結構性技術元數據提供了在信息技術的基礎架構中對數據的說明,如數據的存放位置、數據的存儲類型、數據的血緣關係等。關聯性技術元數據描述了數據之間的關聯和數據在信息技術環境之中的流轉情況。技術元數據的範圍主要包括:技術規則(計算/統計/轉換/匯總)、數據質量規則技術描述、欄位、衍生欄位、事實/維度、統計指標、表/視圖/文件/介面、報表/多維分析、資料庫/視圖組/文件組/介面組、源代碼/程序、系統、軟體、硬體等。技術元數據一般以已有的業務元數據作為參考設計的。
- 操作元數據。操作元數據主要指與元數據管理相關的組織、崗位、職責、流程,以及系統日常運行產生的操作數據。操作元數據管理的內容主要包括:與元數據管理相關的組織、崗位、職責、流程、項目、版本,以及系統生產運行中的操作記錄,如運行記錄、應用程序、運行作業。
3.數據標準
數據標準是銀行建立的一套符合自身實際,涵蓋定義、操作、應用多層次數據的標準化體系。它包括基礎標準和指標標準(或稱應用標準)。與數據治理其他核心領域具有一定的交叉,比如元數據標準、數據交換和傳輸標準、數據質量標準等。商業銀行的數據標準一般以業界的標準為基礎,如國家標準、監管機構(如國家統計局、中國人民銀行、工信部)制定的標準,結合商業銀行本身的實際情況對數據進行規範化,一般會包括格式、編碼規則、字典值等內容。良好的數據標準體系有助於商業銀行數據的共享、交互和應用,可以減少不同系統間數據轉換的工作。數據標準的主要由業務定義、技術定義和管理信息三部分構成。
- 業務定義。業務定義主要是明確標準所屬的業務主題以及標準的業務概念,包括業務使用上的規則以及標準的相關來源等。對於代碼類標準,還會進一步明確編碼規則以及相關的代碼內容,以達到定義統一、口徑統一、名稱統一、參照統一以及來源統一的目的,進而形成一套一致、規範、開放和共享的業務標準數據。
- 技術定義。技術定義是指描述數據類型、數據格式、數據長度以及來源系統等技術屬性,從而能夠對信息系統的建設和使用提供指導和約束。
- 管理信息。管理信息是指明確標準的所有者、管理人員、使用部門等內容,從而使數據標準的管理和維護工作有明確的責任主體,以保障數據標準能夠持續的進行更新和改進。
4.數據質量管理
數據質量管理已經成為銀行數據治理的有機組成部分。高質量的數據是商業銀行進行分析決策、業務發展規劃的重要基礎,只有建立完整的數據質量體系,才能有效提升銀行數據整體質量,從而更好的為客戶服務,提供更為精準的決策分析數據。
制度和規範。從技術層面上,應該完整全面的定義數據質量的評估維度,包括完整性、時效性等,按照已定義的維度,在系統建設的各個階段都應該根據標準進行數據質量檢測和規範,及時進行治理,避免事後的清洗工作。
數據質量評價維度
明確相應的管理流程。數據質量問題會發生在各個階段,因此需要明確各個階段的數據質量管理流程。例如,在需求和設計階段就需要明確數據質量的規則定義,從而指導數據結構和程序邏輯的設計;在開發和測試階段則需要對前面提到的規則進行驗證,確保相應的規則能夠生效;最後在投產後要有相應的檢查,從而將數據質量問題儘可能消滅在萌芽狀態。數據質量管理措施,宜採用控制增量、消滅存量的策略,有效控制增量,不斷消除存量。
5.數據生命周期管理
任何事物都具有一定的生命周期,數據也不例外。從數據的產生、加工、使用乃至消亡都應該有一個科學的管理辦法,將極少或者不再使用的數據從系統中剝離出來,並通過核實的存儲設備進行保留,不僅能夠提高系統的運行效率,更好的服務客戶,還能大幅度減少因為數據長期保存帶來的儲存成本。數據生命周期一般包含在線階段、歸檔階段(有時還會進一步劃分為在線歸檔階段和離線歸檔階段)、銷毀階段三大階段,管理內容包括建立合理的數據類別,針對不同類別的數據制定各個階段的保留時間、存儲介質、清理規則和方式、注意事項等。
數據生命周期中各參數間的關係
從上圖數據生命周期中各參數間的關係中我們可以了解到,數據生命周期管理可以使得高價值數據的查詢效率大幅提升,而且高價格的存儲介質的採購量也可以減少很多;但是隨著數據的使用程度的下降,數據被逐漸歸檔,查詢時間也慢慢的變長;最後隨著數據的使用頻率和價值基本沒有了之後,就可以逐漸銷毀了。
6. 數據分布和存儲
數據分布和存儲主要涵蓋了數據如何劃分和存儲,總行系統以及總分行數據如何分布,主數據及參考數據(也稱為副本數據或者輔數據)如何管理。只有對數據進行合理的分布和存儲,才能有效的提高數據的共享程度,才能儘可能的減少數據冗餘帶來的存儲成本。
通常情況下,綜合數據規模、使用頻率、使用特性、服務時效等因素,從存儲體系角度,可以將商業銀行的數據存儲劃分為四類存儲區域,即交易型數據區、集成型數據區、分析型數據區、歷史型數據區。
1、交易型數據區。交易型數據區包括渠道接入、交互控制、業務處理、決策支持與管理等各類聯機應用數據;存儲客戶自助或與銀行操作人員在業務交互辦理過過程中產生的原始數據的存儲,包括業務處理數據,內部管理數據和一些外部數據,其存儲的是當前狀態數據。
2、集成型數據區。集成型數據區包括操作型數據(OLTP)和數據倉庫型數據(OLAP)。
3、分析型數據區。分析型數據主要是用於決策支持與管理的各類集市應用的數據。為了對業務執行情況進行深入分析,需要對原始數據進行進一步匯總統計分析,統計分析結果用於最終的決策展示,因此分析型數據區存儲了這些統計、分析模型結構的指標數據。
4、歷史數據區。這裡存儲了所有近線應用、歸檔應用、外部審計數據平台應用等的數據,主要滿足各種歷史數據歸檔後的數據保管和數據查詢服務。
7.數據交換
數據交換是銀行進行數據交互和共享的基礎,合理的數據交換體系有助於銀行提高數據共享程度和數據流轉時效。一般商業銀行會對系統間數據的交換規則制定一些原則,比如對介面、文件的命名、內容進行明確,規範系統間、銀行系統與外部機構間的數據交換規則,指導數據交換工作有序進行。建立統一的數據交換系統,一方面可以提高數據共享的時效性,另一方面也可以精確掌握數據的流向。
8.數據安全
商業銀行的重要且敏感數據大部分集中在應用系統中,例如客戶的聯絡信息、資產信息等,如果不慎泄露,不僅給客戶帶來損失,也會給商業銀行帶來不利的聲譽影響,因此數據安全在數據管理和治理過程中是相當重要的。
- 數據存儲安全。包括物理安全、系統安全存儲數據的安全,主要通過安全硬體的採購來保障數據存儲安全。
- 數據傳輸安全。包括數據的加密和數據網路安全控制,主要通過專業加密軟體廠商進行規範設計和安裝。
- 數據使用安全。需要加強從業務系統層面進行控制,防範非授權訪問和下載列印客戶數據信息;部署客戶端安全控制工具,建立完善的客戶端信息防泄漏機制,防範將客戶端上存儲的個人客戶信息非授權傳播;建立完善的數據安全管理體系,建立數據安全規範制度體系,組建數據安全管理組織機構,建立有效的數據安全審查機制;對於生產及研發測試過程中使用的各類敏感數據進行嚴密管理;嚴格與外單位合作中的個人客戶信息安全管理等。
9.數據服務
數據的管理和治理是為了更好的利用數據,是數據應用的基礎。銀行應該以數據為根本,以業務為導向,通過對大數據的集中、整合、挖掘和共享,實現對多樣化、海量數據的快速處理及價值挖掘,利用大數據技術支持產品快速創新,提升以客戶為中心的精準營銷和差異化客戶服務能力,增強風險防控實時性、前瞻性和系統性,推動業務管理向信息化、精細化轉型,全面支持信息化銀行的建設。
- 建立結構化數據處理分析平台。數據倉庫建設能夠實現企業異構數據的集成,企業按照分析主題重組數據,建立面向全行的一致的信息視圖。下圖是一個典型的銀行數據倉庫服務體系:
銀行典型的數據倉庫服務體系
- 數據資產視圖。在建立了數據倉庫之後,需要建立統一的分析和可視化平台,解決數據在哪裡,數據怎麼用的問題。一個典型的應用是建立全行統一客戶視圖,包含客戶信息統一視圖、客戶信息風險視圖和網點業績視圖。
數據資產視圖示例
數據治理的展望
數據治理不是一個臨時性的運動,從銀行業務發展、數據治理意識形成、數據治理體系運行的角度,需要一個長效機制來進行保證。 在大數據時代,經過數據治理的銀行數據可以發揮更大的作用。
1.利用大數據挖掘技術分析各類海量信息,發現市場熱點與需求,實現產品創新服務
可以將大數據應用到產品生命周期,深入挖掘客戶需求,把握客戶痛點,推動產品創新。利用大數據技術對社交網路信息、在線客戶評論、博客、呼叫中心服務工單、用戶體驗反饋等信息進行深度挖掘和分析,充分洞察客戶,分析客戶的情緒,了解客戶對產品的想法,獲知客戶需求的變化趨勢,從而對現有產品進行及時的調整和創新,事情貼近客戶的生活場景和使用習慣。
基於大數據創新產品評價方法,為產品創新提供數據支撐。通過大數據分析,改變目前以規模、總量為主的業務評價方式,建立一整套完整的以質量、結構為主的全新的評價方式,以引導全行真正追求有質量、有效益的發展。
2.加強內外部信息聯動,重點利用外部信息提升銀行風險防控能力
進一步加強與稅務、海關、法院、電力部門、水務部門、房產交易登記中心、環保部門以及第三方合作機構的數據互聯共享,有效拓寬信息來源渠道,深度挖掘整合系統內外客戶信息、關聯關係、交易行為、交易習慣、上下游交易對手、資金周轉頻率等數據信息,利用大數據技術查找與分析不同數據變數間的關聯關係,並建立相應的決策模型,提升銀行風險防控能力。
- 在信用風險方面,可以結合外部數據,完善信用風險防範體系,基於可視化分析有效防控信用風險的傳導。引入大數據理念和技術,統一信用風險模型管理,構建覆蓋信用風險訓練、模型管理、日常預警、評分評級、客戶信用視圖以及業務聯動控制的信貸大數據平台,建立多維度、全方位的縫隙愛你預警體系。
- 在市場風險方面,基於市場信息有效預測市場變動,基於大數據處理技術提升海量金融數據交易的定價能力,構建定價估值引擎批量網格計算服務模式,支持對海量交易的實時定價,有效提升銀行風險管控與定價能力,為金融市場業務的發展提供有力支撐。
- 在操作風險方面,依託大數據信息整合優勢,有效防控操作風險。通過可視化技術,從業務網數據中發現識別風險線索,實現由「風險監控」向「業務監控」模式轉變,提升風險的提前預警能力。加強跨專業風險監控模型的研發,通過由點帶線、由線及面的矩陣式關聯監控,提前識別風險交織趨勢,防範風險傳染。
3.利用大數據技術提升經營管理水平,優化業務流程,實現精細化經營決策
- 在經營決策方面,通過外部數據的補充和整理,實現經營分析外延的拓展,從市場和經營環境的高度分析各級機構的發展方向、競爭壓力,制定更合理、更有效的經營策略。同時,應用大數據可視化技術,實現複雜分析過程和分析要素向用戶的有效傳遞,增強分析結果說服力和指導性,向經營人員提供有力的信息支撐。
- 在資源配置方面,依託大數據採集和計算能力,提升測算的敏感性和有效性,加強財務預測的可靠性和有效性,為總體資源配置提供更好的信息支撐,實現對具體資源配置的動態管理。
- 在過程改進方面,優化業務流程,對交易、日誌的專業挖掘,探索當前業務處理流程節點的瓶頸,尋求最有的解決方案。比如通過分析客戶從排隊到等候完成全部交易的流程合理性,提出過程改進方法,提升網點整體運營效率和客戶體驗。
- 在運維保障方面,基於流數據處理技術,搭建准實時的應用交易級監控平台,實現交易運行情況的即時監控,保障業務運行穩定高效。
※本文由 FineReport 授權轉載, 原文:《數據治理怎麼做?這篇萬字長文終於講清楚了!》
___________
你也有經驗想分享嗎?快來投稿賺稿費吧!
瀏覽 320 次