專家分析:數(shù)據(jù)中心數(shù)據(jù)質(zhì)量管理方法
51CTO.com 發(fā)表于:12年04月20日 13:15 [轉(zhuǎn)載] 51CTO
數(shù)據(jù)是企業(yè)數(shù)據(jù)中心的重要資產(chǎn),獲取并維護高質(zhì)量數(shù)據(jù),對高效的IT和業(yè)務運營至關重要。面對復雜度不斷增加的業(yè)務數(shù)據(jù),如何才能全面保證數(shù)據(jù)質(zhì)量?可以借助完備的Informatica數(shù)據(jù)質(zhì)量平臺,無論何時何地,您都可以在整個企業(yè)內(nèi)訪問,甄別、清洗、集成、交付可信的數(shù)據(jù),并在第一時間找出并修正藏匿于任意位置、令您的公司動輒花費上百萬的數(shù)據(jù)質(zhì)量問題。
Informatica的數(shù)據(jù)管理目標
調(diào)查顯示,信息的價值平均為企業(yè)價值的37%,這也讓越來越多的企業(yè)更加重視數(shù)據(jù)中心的建設。但有許多因素會導致這些“資產(chǎn)”貶值,比如數(shù)據(jù)的冗余和重復導致信息的不可識別、不可信,信息時效性不強,精確度不夠;結(jié)構(gòu)或非結(jié)構(gòu)數(shù)據(jù)使整合有困難;人員變動引發(fā)的影響;數(shù)據(jù)標準不統(tǒng)一,相關規(guī)范不完善造成對數(shù)據(jù)理解的不充分等等。
為了充分實現(xiàn)數(shù)據(jù)資產(chǎn)的業(yè)務價值,您需要一個數(shù)據(jù)集成平臺。Informatica既可以在數(shù)據(jù)架構(gòu)層面提供信息傳遞、B2B數(shù)據(jù)交換、企業(yè)數(shù)據(jù)集成等一系列的基礎架構(gòu)解決方案,同時也可為行業(yè)提供數(shù)據(jù)質(zhì)量管理、主數(shù)據(jù)管理和復雜事件處理等方案,來支撐數(shù)據(jù)中心實現(xiàn)可信、交互、權(quán)威的信息資產(chǎn)管理,達成企業(yè)的業(yè)務目標,這也是信息中心建設的一個重點。
數(shù)據(jù)質(zhì)量管理的整體框架
數(shù)據(jù)質(zhì)量管理在數(shù)據(jù)中心建設中是一個完整的生態(tài)鏈。數(shù)據(jù)質(zhì)量會受到供應商、生產(chǎn)員工、工藝流程以及內(nèi)部客戶和外部一些系統(tǒng)的影響,同時,從應用和軟件角度方面講,數(shù)據(jù)提供者、軟件開發(fā)集成、質(zhì)量管控手段等也都會影響到企業(yè)數(shù)據(jù)質(zhì)量的整體狀況。從數(shù)據(jù)質(zhì)量整體框架和方法論上講,首先我們要了解數(shù)據(jù)現(xiàn)狀、確定目標,然后要清楚用什么人,通過怎樣的流程,采用什么樣的技術來支撐和達成目標,所以,數(shù)據(jù)質(zhì)量管理中,人、流程、技術三方面缺一不可。
要實現(xiàn)數(shù)據(jù)質(zhì)量提升,還必須要做到指標的可量化,通過量化指標來實現(xiàn)質(zhì)量可控。從技術層面講,要從以下六個角度去考量數(shù)據(jù)質(zhì)量,也稱為數(shù)據(jù)質(zhì)量的矩陣,包括:完備性、符合性、一致性、準確性、唯一性以及完整性。
構(gòu)建數(shù)據(jù)質(zhì)量處理流程
數(shù)據(jù)質(zhì)量處理的流程是怎樣的呢?我們把數(shù)據(jù)質(zhì)量的處理分為兩大部分:一是面向數(shù)據(jù)質(zhì)量的分析過程,二是針對分析結(jié)果進行增強的過程。先要識別和量化數(shù)據(jù)質(zhì)量,然后定義數(shù)據(jù)質(zhì)量和目標,接下來就要交給相關部門設計質(zhì)量提升的流程,其后就是實現(xiàn)質(zhì)量提升的流程,并交付高質(zhì)量數(shù)據(jù)給業(yè)務人員使用。同時,在整個環(huán)境中,還需要有相關的一些監(jiān)控和對比來評估是否達成了目標,決定是否需要進行新一輪的數(shù)據(jù)質(zhì)量提升。這是一個周而復始、螺旋上升的過程。
通過Informatica構(gòu)建數(shù)據(jù)質(zhì)量管理主要分為四大部分。首先是Analyze andProfiling,通過對現(xiàn)有數(shù)據(jù)的詳細分析、描繪,來確定怎樣進行處理和標準化;第二是Standardise\Cleanse,標準化和清洗更容易讓計算機識別,比如數(shù)據(jù)可以通過什么樣的格式進行限制和約束,那些信息可以通過數(shù)據(jù)質(zhì)點或者參考數(shù)據(jù)進行相關的標準化;第三是Match,標準化后要進行相關的數(shù)據(jù)匹配,解決數(shù)據(jù)重復性問題,保證數(shù)據(jù)的唯一性;第四是Consolidate,將重復的數(shù)據(jù)進行合并,最后運用到不同的系統(tǒng)當中。需要注意的是,在整個過程中我們都需要進行相關的監(jiān)控。
現(xiàn)在,很多企業(yè)的數(shù)據(jù)中心,不僅僅只是一個最單純的面向數(shù)據(jù)倉庫的數(shù)據(jù)存儲中心,而是既能支持業(yè)務運營,又支持系統(tǒng)分析,還可進行系統(tǒng)間的整合。在數(shù)據(jù)中心建設中,數(shù)據(jù)質(zhì)量需要從數(shù)據(jù)源端就開始進行治理,包括PowerCenter、Data Quality、MDM Hub、Informatica 9在內(nèi)的Informatica的數(shù)據(jù)質(zhì)量工具,可以將所有的業(yè)務邏輯和規(guī)則變成相關的一些服務,由各個業(yè)務前端、各個業(yè)務處理過程中,對數(shù)據(jù)處理服務進行調(diào)用,進行相關的數(shù)據(jù)校驗驗和數(shù)據(jù)清洗,保證數(shù)據(jù)產(chǎn)生過程中的數(shù)據(jù)質(zhì)量,減少事后數(shù)據(jù)處理的難度和投入。
總的來說,數(shù)據(jù)質(zhì)量管理是一個綜合的治理過程,不能通過簡單的技術手段得意解決,需要從企業(yè)的高度加以重視,才能為數(shù)據(jù)中心建設提供高質(zhì)量的數(shù)據(jù)保證。