編輯導語:作為數據中台能力的根基,對數據資産的管理則必然提至中台建設日程當中。那麼,數據資産管理過程中可能會出現什麼問題?數據資産健康管理又可以從哪些方面入手呢?本篇文章裡,作者就數據資産管理、數據資産健康度評價方面的問題做了總結,一起來看一下。
數據資産是數據中台能力的根基,數據資産的健康度直接關系到中台建設的成敗。那麼在數據中台建設過程中究竟該如何評價數據資産建設及管理的情況呢?
一、數據資産管理過程常見問題規範不統一,不同業務部門、不同開發人員發現習慣及意識不同,缺少統一的資産建設規範管控時,會帶來命名不規範、建模不标準等問題。
數據複用低,元數據信息缺失、數據權限申請及審批流程斷層、缺少高效易用的數據地圖檢索工具等會帶來數倉人員開發了很多模型,但是業務并不知曉,重複造輪子。
考核難量化,對于數倉開發人員的績效該如何量化評估呢?開發的模型數量?Bug數?還是數據質量問題的次數?
上傳不下達,管理層及數據管理者希望不斷降低數據的存儲及計算成本,但由于成本核算粒度粗,無法将成本追溯到個人開發者。對于一線開發同學來說,短期内隻要能最快完成業務需求即可,不會過多關注成本問題。對于低效高耗任務、冷數據缺乏主動治理意識。
二、數據資産健康度評價維度
1. 規範性
庫名、表名、指标及字段名是否符合約定的規範,例如:數倉分層、業務線、數據域、業務過程的組合,形成可以通過名稱識别出數據的基本内容,而不是随心所欲的中英文混合、縮寫,隻有熟悉的人才可以知道表是幹什麼用的。
資産建設過程中,可以将集團或者數據部門的規範抽象、集成到ETL過程,在系統層面做攔截,事前監測不規範的數據開發過程。可以參考阿裡的dataphin。
2. 豐富性
元數據覆蓋度,包括資産技術元數據、業務元數據等信息,元數據越完善,才能為使用者提供更準确的決策依據,減少溝通成本,提升數據複用度。
例如,表的責任人、業務描述信息、主題、層級、标簽豐富度,字段說明及加工邏輯使用文檔。技術元數據主要以數據開發人員使用為主,例如存儲大小、小文件數量、使用熱度(近X天使用人次)。
除系統可以自動獲取的外,其他相關元數據需要數據開發人員進行常态化的維護和更新。
3. 完善度
數倉模型對業務的支撐和覆蓋情況,完善度越高的數倉體系,業務獲取和使用數據的成本就越低。即當業務需要數據時,已經相應的模型在哪裡等着使用了,而不是再去對接業務溝通需求,排期開發。
例如當管理者問數倉負責人,你們天天搞數倉建設,現在到底建設到什麼程度了呢?有了完善度評價标準,可以量化數倉建設成熟度。一般來說,典型的數倉體系架構如下:
通過數據血緣及查詢日志,可以對數據加工任務以及Adhoc查詢進行統計分析。
例如,在數據查詢中,直接查詢ODS的任務占比,占比越高說明有大量任務基于原始數據加工,中間模型DWD、DWT、DWA複用性很差。在技術上,直接查詢底層表,查詢掃描的數據量會越大,查詢時間會越長,查詢的資源消耗也越大,使用數據的人滿意度會低。可以跨層引用率來衡量支持完善度。
DWD層:看 ODS層有多少表被DWT/DWA/APP 層引用,占所有活躍的ODS 層表比例。
DWT/DWA/APP層完善度:主要看彙總數據能直接滿足多少查詢需求,也就是用彙總層數據的查詢比例,如果彙總數據無法滿足需求,使用數據的人就必須使用明細數據,甚至是原始數據。
彙總數據查詢比例:DWT/DWA/APP層的查詢占所有查詢的比例。
跨層引用率越低越好,在數據中台模型設計規範中,一般不允許出現跨層引用,例如ODS層數據隻能被 DWD引用。
4. 複用度
複用度顧名思義,資産建設完成後,被不同業務或用戶複用的情況,複用才會減少重複開。
可以用引用系數作為數據中台資産複用度評價指标。引用系數越高,說明複用性越好。
引用系數:數據表被讀取,産出下遊模型的平均數量。例如一張DWD 層表被8張 DWS層表引用,這個表的引用系數就是8,把擁有下遊的DWD 層表(有下遊表的)引用系數取平均值,則為DWD 層的平均引用系數。
5. 數據質量
數據質量問題産生的原因包括開發質量問題、集群穩定性、以及業務變更等多種問題,對于難以掌控的外部因素,隻能是早發現早修複,數據資産的評價維度主要是監控體系的覆蓋度、監控報警的處理率以及平均處理時長。
6. 成本優化維度
數據成本的管控需要建立自上而下的成本分攤與評價體系,才能自下而上形成主動治理、優化的意識。例如考核每個數據開發人員待治理的任務數量以及治理成效。
在成本優化中,最常關注的包括:資産存儲、計算耗時/資源情況折算成成本。産生的小文件合并問題、冷熱數據分級及歸檔、HDFS路徑治理等。
7. 數據安全
随着數據安全法以及個人信息保護法相繼生效,手機号、身份證等絕密信息進入集群後是嚴禁明文傳輸的。數據開發在數據工作是否做到了對所有敏感信息的加密脫敏處理,也是資産健康度的評價維度之一。
三、資産健康分的計算邏輯及應用健康分價值:從數倉總體到組織部門以及一線的數據開發者,形成統一的量化标準,客觀評價資産建設工作。對于最最細粒度度的單個模型,可以直觀展示模型健康度,責任到人,形成自上而下的考核以及自下而上的管理、治理動作。
健康分的計算邏輯:根據企業自身關注的重點,多方讨論确認評價指标以及權重系數。從單個表的健康分,彙總到個人數據開發者,以及數據團隊的健康分。評價指标可以從前面章節中的七大維度進行篩選,主要可以包括:
四、基于健康分的資産管理工作台
- 建設規範度:不符合建表或命名規範;
- 信息豐富度:元數據是否缺失,字段描述100%覆蓋,主題、标簽是否缺失等;
- 完善度:跨層引用比例;
- 複用度:模型引用系數;
- 數據質量:監控覆蓋度、平均異常次數(延遲、數據錯誤)、平均處理時長;
- 成本優化:存儲成本、計算成本、近X天使用情況、小文件數量;
- 數據安全:是否存在敏感字段未脫敏。
除了數據工作者主動治理和規範的意識外,很多時候是缺少有效的工具。将資産健康分以及治理動作進行可視化展示,為數據工作者提供一站式工作台,不僅可以讓大家養成規範化、周期性治理的習慣,也可以形成上下一緻的資産管理及治理标準。
工作台産品設計中的核心原則:客觀評估現狀,給出原因及可執行的動作,量化治理效果。即:每天上班打開工作台,知道自己數倉工作目前的定位及問題,如何去優化改善,做了一系列的動作後,效果如何了。
五、小結
利用資産健康分,量化資産建設及管理效果,可以做到自上而下的上傳下達管理,也可以為一線數據工作者提供追蹤、可執行的行動指南,相比較過去以統計為主的資産“大盤”,資産健康分可以更精細化地指導數據資産管理及治理工作。
#專欄作家#
數據幹飯人,微信号公衆号:數據幹飯人,人人都是産品經理專欄作家。專注數據中台産品領域,覆蓋開發套件,數據資産與數據治理,BI與數據可視化,精準營銷平台等數據産品。擅長大數據解決方案規劃與産品方案設計。
本文原創發布于人人都是産品經理,未經作者許可,禁止轉載。
題圖來自Unsplash,基于CC0協議
,