衆所周知,要體現數據價值,前提就是數據質量的保障,質量沒有得到 100% 保證的數據是很難體現出業務價值的,如果基于這些有問題的數據做決策支持,或做業務辦理,将會得到災難性的結果,讓領導層和數據使用方對大數據失去信心。本文通過分析數據質量問題出現的原因,給出解決數據質量管理問題的思路,值得參考借鑒。
數據質量問題常見原因大數據項目建設是一個專業且複雜的工程,涵蓋了業務梳理、标準制定、元數據管理、數據模型管理、數據彙聚、清洗加工、中心存儲、資源目錄編制、共享交換、數據維護、數據失效等等過程。其中任何一個環節中出錯,都将導緻數據的錯誤,甚至,源頭數據本身就是錯誤的。所以,數據質量問題不僅僅是一個技術問題,它也可能出現在業務和管理的過程中。我們總結導緻數據質量問題的常見原因如下:
1)缺乏領導力:由于組織領導層不重視數據管理,導緻缺乏數據管理層面的資源投入;确認企業自頂向下的數據質量管理體系建設,構建企業級數據質量管理閉環。
防治措施:定制數據治理組織架構,構建數據質量閉環管理方案,制定數據考核評價體系,加強宣貫培訓。
2)數據輸入引起的問題:數據采集端缺乏标準,無數據質量管控導緻輸入數據不一緻和混亂;缺乏過程支持導緻錯誤數據輸入,業務流程規則變更、業務流程執行混亂等導緻的數據錯誤。
防治措施:加強數據源頭管控,建立數據輸入控制,防止無效或不準确的數據進入系統。
3)數據處理引起的問題:引用的數據源出現錯誤或變更、系統文檔不完整或已過時;過時的業務規則;變更的數據結構等。
防治措施:加強元數據管理,制定變更控制,将數據質量管理前置。
4)系統設計引起的問題:未執行參照完整性、唯一性約束、編碼不準确和分歧,數據模型不準确,數據映射或格式不正确,主數據管理薄弱導緻數據質量問題等。
防治措施:加強系統設計規範及管理。
5)解決問題引起的問題:主要指臨時手動修改引發的數據隐患,沒有通過應用接口或業務處理規則進行變更,可能導緻更多的錯誤産生更高的風險。
防治措施:實施數據治理和管理制度。
如何解決數據質量問題綜上所述,數據質量的來源非常廣泛且複雜,系統開發、運行、操作的任意環節的任何一個問題,都可能造成數據質量的産生。
高質量的數據是進行分析決策、業務發展規劃的重要基礎,隻有通過建立完整的數據質量管理體系,明确數據質量管理目标、控制對象和指标、定義數據質量檢驗規則、執行數據質量檢核,生産數據質量報告,通過數據質量問題處理流程及相關功能實現數據質量問題從發現到處理的閉環管理,從而促進數據質量的不斷提升。
根據億信華辰多年數據治理和數據質量實踐經驗,我們總結了企業數據質量管理的七步法。
1、定義高質量數據
在啟動數據質量方案之前,有益的做法是了解業務需求、定義術語、識别組織痛點,對數據質量改進的目标和優先級事項達成一緻。可以從以下幾個方面考慮:包括對高質量數據的理解、低質量數據對業務運營和戰略的影響,對低質量數據的容忍度,高質量的數據如何賦能業務戰略等,全面了解組織中數據質量的當前狀态,與利益相關方面談識别痛點、風險和業務驅動因素,了解業務流程系統情況、技術結構和數據依賴關系。
2、定義數據質量戰略
提高數據質量要有一定的戰略,應考慮到需要完成的工作以及執行這些工作的方式。數據質量優先級必須與業務戰略一緻,定義數據質量框架有助于指導戰略及開展數據質量管理活動。
3、識别關鍵業務和質量規則
數據質量管理工作應首先關注組織中最重要的數據,可以根據監管要求、财務價值和對客戶的直接影響等因素對數據重要性進行優先級排序。在确定關鍵數據後,識别梳理數據質量特征要求的業務規則。
4、執行初始數據質量評估
确定關鍵的業務需求和數據後,通過執行初始數據質量評估,了解數據,定義可操作的改進計劃,通過評估結果确認問題及優先級,并作為數據質量規劃的基礎。
5、識别改進方向并确定優先級
在經過初步數據質量評估後,識别潛在的改進措施,并确定優先順序,可以通過對大數據集進行全面的數據分析來了解問題的廣度,或與利益相關方進行溝通,分析問題的業務影響,最終讨論确定優先順序。
6、定義數據質量改進目标
初步評估是為特定的數據質量提升目标奠定了基礎,根據數據質量改進帶來的業務價值的一緻性量化,設定具體的、可實現的目标。确定數據質量改進目标時可參考以下因素:受影響數據的關鍵性,受影響的數據量,受問題影響的業務流程數量和類型,受影響的消費者、客戶、供應商或者員工數量,與問題相關的風險,糾正根本原因的成本,潛在的工作成本等。
7、開發和部署數據質量操作
為了保證數據質量,圍繞數據質量方案制定實施計劃,管理數據質量規則和标準、監控數據與規則的執行一緻性,識别和管理數據質量問題,并報告質量水平。
數據質量管理平台推薦以上步驟的實施需要依托數據質量治理戰略、數據質量管控策略,還需要數據質量管理平台的支持,構建數據質量治理的自我完善能力。我們可以簡單地通過引入一些工具和規則就可以解決 80% 的問題,也可以引入一個複雜的系統工程來解決 100% 的質量問題,取決于我們希望達到什麼樣的質量标準。那麼億信華辰數據質量管理平台是如何助力實現數據質量的嚴密管控的呢?
1)多角度的規則管理
平台提供數據質量規則的定義和管理,數據質量規則定義數據質量審核的業務邏輯,是數據質量審核和監控管理的基礎。規則定義提供了規則複制和規則模闆的功能對規則進行多模型使用,提升了用戶在規則定義過程中的便利性。
2)多種方式的新建規則
平台内置16種規則模闆,用戶隻需通過簡單界面化的方式新建規則。平台支持單條和批量建規則,可以根據已經存在的模闆新建規則,可以根據标準來新建規則,滿足不同場景創建規則的需求。
新建規則
3)強大的智能修複
平台支持對檢查出來有問題的數據按照一定的規則進行智能修複,可以支持對空值、值域、規範(身份證、日期、全半角)這些規則進行修複,方便用戶對數據的整改。
修複策略編輯
4)全面的監控管理
平台支持數據質量檢查方案的定義和管理,包括檢查範圍、檢查時間、檢查規則、評分規則、評估報表等。同時,方案支持人工調度和自動調度。提供了完整性評價、規範性評價、邏輯性評價、及時性評價、重複性評價、外鍵關聯性、波動分析、平衡分析等多種評估方法,各評估方法均采用可視化界面,用戶無需編程,即可輕松完成所有規則的建立。
數據質量管控
5)詳盡的結果管理
通過質量監控,會産生和保存質量結果,包括:對象名稱、發生時間、違反規則、級别、狀态等。系統會自動生成每個質檢方案的明細結果表,并允許用戶根據分析需要對明細結果表字段進行自定義,從而為用戶進行豐富多樣的數據質量分析提供數據。
6)細緻自主的數據整改
平台參照工作流管理聯盟(WfMC)标準設計,用戶可自行定義整改流程,可實現問題分發給數據責任人,并可實時監督流程處理的狀态。同時可根據流程的優先級、最終期限、轉派次數等提供多角度查詢功能。
數據整改管理
億信華辰數據質量管理平台以全面質量管理PDCA循環管理方法為指導,充分結合國内數據質量管理工作的特點,運用元數據管理、數據挖掘、數據分析、工作流、評分卡、可視化等技術最終幫助企業和政府建立數據質量管理體系,全面提升數據的完整性、規範性、及時性、一緻性、邏輯性等,降低數據管理成本,減少因數據不可靠導緻的決策偏差和損失。
,