通過Informatica構(gòu)建數(shù)據(jù)質(zhì)量管理主要分為四大部分。首先是Analyze andProfiling,通過對(duì)現(xiàn)有數(shù)據(jù)的詳細(xì)分析、描繪,來確定怎樣進(jìn)行處理和標(biāo)準(zhǔn)化;第二是StandardiseCleanse,標(biāo)準(zhǔn)化和清洗更容易讓計(jì)算機(jī)識(shí)別,比如數(shù)據(jù)可以通過什么樣的格式進(jìn)行限制和約束,那些信息可以通過數(shù)據(jù)質(zhì)點(diǎn)或者參考數(shù)據(jù)進(jìn)行相關(guān)的標(biāo)準(zhǔn)化;第三是Match,標(biāo)準(zhǔn)化后要進(jìn)行相關(guān)的數(shù)據(jù)匹配,解決數(shù)據(jù)重復(fù)性問題,保證數(shù)據(jù)的唯一性;第四是Consolidate,將重復(fù)的數(shù)據(jù)進(jìn)行合并,最后運(yùn)用到不同的系統(tǒng)當(dāng)中。需要注意的是,在整個(gè)過程中我們都需要進(jìn)行相關(guān)的監(jiān)控。
現(xiàn)在,很多企業(yè)的數(shù)據(jù)中心,不僅僅只是一個(gè)最單純的面向數(shù)據(jù)倉(cāng)庫的數(shù)據(jù)存儲(chǔ)中心,而是既能支持業(yè)務(wù)運(yùn)營(yíng),又支持系統(tǒng)分析,還可進(jìn)行系統(tǒng)間的整合。在數(shù)據(jù)中心建設(shè)中,數(shù)據(jù)質(zhì)量需要從數(shù)據(jù)源端就開始進(jìn)行治理,包括PowerCenter、Data Quality、MDM Hub、Informatica 9在內(nèi)的Informatica的數(shù)據(jù)質(zhì)量工具,可以將所有的業(yè)務(wù)邏輯和規(guī)則變成相關(guān)的一些服務(wù),由各個(gè)業(yè)務(wù)前端、各個(gè)業(yè)務(wù)處理過程中,對(duì)數(shù)據(jù)處理服務(wù)進(jìn)行調(diào)用,進(jìn)行相關(guān)的數(shù)據(jù)校驗(yàn)驗(yàn)和數(shù)據(jù)清洗,保證數(shù)據(jù)產(chǎn)生過程中的數(shù)據(jù)質(zhì)量,減少事后數(shù)據(jù)處理的難度和投入。
總的來說,數(shù)據(jù)質(zhì)量管理是一個(gè)綜合的治理過程,不能通過簡(jiǎn)單的技術(shù)手段得意解決,需要從企業(yè)的高度加以重視,才能為數(shù)據(jù)中心建設(shè)提供高質(zhì)量的數(shù)據(jù)保證。