通過Informatica構建數(shù)據質量管理主要分為四大部分。首先是Analyze andProfiling,通過對現(xiàn)有數(shù)據的詳細分析、描繪,來確定怎樣進行處理和標準化;第二是StandardiseCleanse,標準化和清洗更容易讓計算機識別,比如數(shù)據可以通過什么樣的格式進行限制和約束,那些信息可以通過數(shù)據質點或者參考數(shù)據進行相關的標準化;第三是Match,標準化后要進行相關的數(shù)據匹配,解決數(shù)據重復性問題,保證數(shù)據的唯一性;第四是Consolidate,將重復的數(shù)據進行合并,最后運用到不同的系統(tǒng)當中。需要注意的是,在整個過程中我們都需要進行相關的監(jiān)控。

現(xiàn)在,很多企業(yè)的數(shù)據中心,不僅僅只是一個最單純的面向數(shù)據倉庫的數(shù)據存儲中心,而是既能支持業(yè)務運營,又支持系統(tǒng)分析,還可進行系統(tǒng)間的整合。在數(shù)據中心建設中,數(shù)據質量需要從數(shù)據源端就開始進行治理,包括PowerCenter、Data Quality、MDM Hub、Informatica 9在內的Informatica的數(shù)據質量工具,可以將所有的業(yè)務邏輯和規(guī)則變成相關的一些服務,由各個業(yè)務前端、各個業(yè)務處理過程中,對數(shù)據處理服務進行調用,進行相關的數(shù)據校驗驗和數(shù)據清洗,保證數(shù)據產生過程中的數(shù)據質量,減少事后數(shù)據處理的難度和投入。

總的來說,數(shù)據質量管理是一個綜合的治理過程,不能通過簡單的技術手段得意解決,需要從企業(yè)的高度加以重視,才能為數(shù)據中心建設提供高質量的數(shù)據保證。

分享到

zhaohang

相關推薦