其中因需求、概要設(shè)計(jì)和詳細(xì)設(shè)計(jì)為執(zhí)行過程中的核心流程節(jié)點(diǎn),將針對此三部分進(jìn)行詳細(xì)講解。
1. 需求調(diào)研
數(shù)據(jù)類項(xiàng)目總體調(diào)研流程如下:
數(shù)據(jù)調(diào)研是整個(gè)項(xiàng)目的基礎(chǔ),既要詳細(xì)掌握現(xiàn)有業(yè)務(wù)現(xiàn)狀及數(shù)據(jù)情況又要準(zhǔn)確獲取客戶需求,明確項(xiàng)目建設(shè)目標(biāo)。如上圖所示總體分成三個(gè)大的時(shí)間節(jié)點(diǎn):包括需求調(diào)研準(zhǔn)備、需求調(diào)研實(shí)施及需求調(diào)研后期的梳理確認(rèn)。
需求調(diào)研準(zhǔn)備包括:調(diào)研計(jì)劃確定、調(diào)研前準(zhǔn)備,具備條件的盡量開一次調(diào)研需求見面會(項(xiàng)目啟動會介紹過的可以不需要再組織)。其中調(diào)研前準(zhǔn)備需針對客戶的組織架構(gòu)及業(yè)務(wù)情況進(jìn)行充分的了解,以便在后續(xù)的調(diào)研實(shí)施階段有的放矢,調(diào)研內(nèi)容更為詳實(shí),客戶需求把控更為準(zhǔn)確。
調(diào)研實(shí)施階段一般組織兩輪調(diào)研,第一論主要是了解業(yè)務(wù)運(yùn)轉(zhuǎn)現(xiàn)狀、對接業(yè)務(wù)數(shù)據(jù)以及客戶需求。第二輪針對具體的業(yè)務(wù)和數(shù)據(jù)的細(xì)節(jié)問題進(jìn)行確認(rèn),及分析后的客戶需求與客戶確認(rèn)。對于部分系統(tǒng)的細(xì)節(jié)問題以線下方式對接,不再做第三輪整體調(diào)研。
需求調(diào)研后期主要是針對客戶需求及客戶業(yè)務(wù)及數(shù)據(jù)現(xiàn)狀進(jìn)行內(nèi)外部評審并確認(rèn)簽字,以《需求規(guī)格說明書》形式明確本期項(xiàng)目建設(shè)目錄。
上表描述了需求調(diào)研過程關(guān)鍵節(jié)點(diǎn)的客戶方及項(xiàng)目組工作內(nèi)容內(nèi)容及輸入輸出,并說明了需求調(diào)研階段的總體原則、調(diào)研方式及相關(guān)要求。
(1)需求收集
(2)需求驗(yàn)證
(3)需求管理
(4)需求確認(rèn)
2. 概要設(shè)計(jì)
數(shù)據(jù)治理項(xiàng)目概要設(shè)計(jì)主要涵蓋網(wǎng)絡(luò)架構(gòu)、數(shù)據(jù)流架構(gòu)、標(biāo)準(zhǔn)庫建設(shè)、數(shù)據(jù)倉庫建設(shè)四部分內(nèi)容??傮w目標(biāo)是明確數(shù)據(jù)如何進(jìn)出數(shù)據(jù)治理平臺(明確網(wǎng)絡(luò)情況)、數(shù)據(jù)在平臺內(nèi)部如何組織及流動(數(shù)據(jù)流架構(gòu)及數(shù)據(jù)倉庫模型)以及數(shù)據(jù)在平臺內(nèi)部應(yīng)遵循哪些標(biāo)準(zhǔn)及規(guī)范(標(biāo)準(zhǔn)庫)。針對每部分具體工作事項(xiàng)及輸入、輸出如下所示:
2.1 網(wǎng)絡(luò)架構(gòu)示意圖
網(wǎng)絡(luò)架構(gòu)要明確硬件部署方案、待接入系統(tǒng)網(wǎng)絡(luò)情況及后續(xù)使用人群及訪問系統(tǒng)方式,以便滿足數(shù)據(jù)接入及數(shù)據(jù)服務(wù)需求。
2.2 數(shù)據(jù)流示意圖
數(shù)據(jù)流架構(gòu)要明確各類數(shù)據(jù)的處理方式及流向,以便確認(rèn)后續(xù)數(shù)據(jù)加工及存儲方式。
2.3 數(shù)據(jù)標(biāo)準(zhǔn)內(nèi)容示意圖
標(biāo)準(zhǔn)庫建設(shè)要明確平臺所遵循的各類標(biāo)準(zhǔn)及規(guī)范,以保證平臺建設(shè)過程的統(tǒng)一規(guī)范,為后續(xù)業(yè)務(wù)賦能打下堅(jiān)實(shí)基礎(chǔ)。
2.4 數(shù)據(jù)倉庫主題域及核心實(shí)體示意圖
數(shù)據(jù)倉庫建設(shè)要明確主題域及關(guān)鍵實(shí)體,明確后續(xù)數(shù)據(jù)拉通整合的實(shí)體對象,以更好地支撐繁雜多變的數(shù)據(jù)需求。
詳細(xì)設(shè)計(jì)針對項(xiàng)目實(shí)際落地的工作模塊分別進(jìn)行設(shè)計(jì),明確每部分實(shí)現(xiàn)的設(shè)計(jì),具體模塊、工作內(nèi)容、輸入、輸出如下所示:
二、數(shù)據(jù)治理自動化
在將數(shù)據(jù)治理項(xiàng)目流程化以后整個(gè)工作內(nèi)容及具體工作產(chǎn)出已經(jīng)比較明確了,但是會發(fā)現(xiàn)流程中會涉及到大量的開發(fā)工作,同時(shí)發(fā)現(xiàn)很多工作具有較高的重復(fù)性或相似性,開發(fā)使用的流程及技術(shù)都是一樣的只是配置不同,因此針對流程化以后各節(jié)點(diǎn)的自動化開發(fā)應(yīng)運(yùn)而生。通過配置任務(wù)的個(gè)性化部分,然后統(tǒng)一生成對應(yīng)的開發(fā)任務(wù)或腳本即可完成開發(fā)。
自動化處理一般有兩種實(shí)現(xiàn)路徑,其一是采購成熟數(shù)據(jù)治理軟件,其二是自研開發(fā)相應(yīng)工具。其中數(shù)據(jù)治理過程中可實(shí)現(xiàn)自動化處理的流程節(jié)點(diǎn)如“工序”標(biāo)藍(lán)色部分:
注:對于需求調(diào)研、模型設(shè)計(jì)等流程節(jié)點(diǎn)因?yàn)樯婕暗骄€下的訪談、業(yè)務(wù)的理解更多的是與人的溝通交流,進(jìn)而獲取相應(yīng)的業(yè)務(wù)知識及需求,并非單純的計(jì)算機(jī)語言同時(shí)“因人而異”的情況也比較常見,所以此部分相關(guān)工作暫時(shí)還以人工為主。
因數(shù)據(jù)接入、腳本開發(fā)及數(shù)據(jù)質(zhì)量稽核在日常工作中占用時(shí)間較長,下面將詳細(xì)講解此三部分內(nèi)容。
1. 批量數(shù)據(jù)接入
數(shù)據(jù)接入是所有數(shù)據(jù)治理平臺的第一步,批量數(shù)據(jù)接入占數(shù)據(jù)接入工作量的70-90%之間。自動化處理即將任務(wù)個(gè)性化部分進(jìn)行抽象化形成配置項(xiàng),通過配置任務(wù)的抽象化配置項(xiàng),進(jìn)而生成對應(yīng)的任務(wù)。批量數(shù)據(jù)接入抽象以后的配置項(xiàng)如下:
示例配置如上,不管使用sqoop、datax等方式都可以批量生成對應(yīng)命令或配置文件,實(shí)現(xiàn)批量生成接入作業(yè),實(shí)現(xiàn)自動化數(shù)據(jù)接入工作,數(shù)據(jù)接入效率提升75%以上,后續(xù)只需驗(yàn)證數(shù)據(jù)接入正確性即可。
資源庫、主題庫的加工腳本占整體開發(fā)工作工作的50%-80%,同時(shí)經(jīng)過對此部分?jǐn)?shù)據(jù)加工方式進(jìn)行特定分析后,數(shù)據(jù)常用的處理方式如下一般有以下幾種類型:
將以上加工方式進(jìn)行總結(jié)后可沉淀出以下幾種數(shù)據(jù)處理方式:
結(jié)合Mapping文檔選定以上數(shù)據(jù)處理方式的一種即可自動生成資源庫或主題庫對應(yīng)腳本,開發(fā)效率得到大幅度提升,整體效率提升60%以上(模型及Mapping設(shè)計(jì)尚需人工處理)。
3. DQC
數(shù)據(jù)質(zhì)量是PDCA實(shí)施總體指導(dǎo)思想的關(guān)鍵一步,是發(fā)現(xiàn)數(shù)據(jù)問題以及檢查數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范落地的必須環(huán)節(jié)。針對具體的規(guī)則都可以通過產(chǎn)品和自助開發(fā)來實(shí)現(xiàn),只需進(jìn)行相應(yīng)配置即可實(shí)現(xiàn)自動化檢查,具體檢查事項(xiàng)如下:
三、數(shù)據(jù)治理智能化
經(jīng)過自動化階段以后數(shù)據(jù)治理流程中數(shù)據(jù)倉庫模型設(shè)計(jì)、Mapping映射等階段依舊有非常多人工處理工作,這些工作大部分跟業(yè)務(wù)領(lǐng)域知識及實(shí)際數(shù)據(jù)情況強(qiáng)相關(guān),依賴專業(yè)的業(yè)務(wù)知識和行業(yè)經(jīng)驗(yàn)才可進(jìn)行合理地規(guī)劃和設(shè)計(jì)。如何快速精通行業(yè)知識和提升行業(yè)經(jīng)驗(yàn)是數(shù)據(jù)治理過程中新的“攔路虎”。如何更好地沉淀和積累行業(yè)知識,自動地提供設(shè)計(jì)和處理的建議是數(shù)據(jù)治理“深水區(qū)”面臨的一個(gè)新的挑戰(zhàn)。數(shù)據(jù)治理智能化將為我們的數(shù)據(jù)治理工作開辟一個(gè) “新天地”。
在整個(gè)數(shù)據(jù)治理流程中智能化可以發(fā)揮作用的的節(jié)點(diǎn)如“工序”標(biāo)紅色部分:
實(shí)現(xiàn)智能化的第一步是如何積累業(yè)務(wù)知識及行業(yè)經(jīng)驗(yàn),形成知識庫。數(shù)據(jù)治理知識庫應(yīng)包括:標(biāo)準(zhǔn)文件、模型(數(shù)據(jù)元)、DQC規(guī)則及數(shù)據(jù)清洗方案、腳本數(shù)據(jù)處理算法、指標(biāo)庫、業(yè)務(wù)知識問答庫等,具體涵蓋內(nèi)容及總體流程如下圖所示:
1. 標(biāo)準(zhǔn)文件
在2B和2G行業(yè)尤其是2G行業(yè),國家、行業(yè)、地方都發(fā)布了大量的標(biāo)準(zhǔn)文件,在業(yè)務(wù)和技術(shù)層面都進(jìn)行了相關(guān)約束,并且指導(dǎo)新建業(yè)務(wù)系統(tǒng)的開發(fā)。標(biāo)準(zhǔn)文件知識庫涵蓋幾個(gè)方面:a.國標(biāo)、行標(biāo)、地標(biāo)等標(biāo)準(zhǔn)的在線查看 b.相關(guān)標(biāo)準(zhǔn)的在線全文檢索 c.標(biāo)準(zhǔn)具體內(nèi)容的結(jié)構(gòu)化解析。
2. 數(shù)據(jù)元(模型)
對于不同行業(yè)來說技術(shù)標(biāo)準(zhǔn)中的命名以及模型是目前大家都比較關(guān)注的,也是在做數(shù)據(jù)中臺類項(xiàng)目以及數(shù)據(jù)治理項(xiàng)目比較耗時(shí)的地方,在金融領(lǐng)域已經(jīng)比較穩(wěn)定的主題模型在其他行業(yè)尚未形成統(tǒng)一,所以對于做2B和2G市場的企業(yè)如何能沉淀出特定行業(yè)的數(shù)據(jù)元標(biāo)準(zhǔn)甚至是主題模型,對于行業(yè)理解及后續(xù)同類項(xiàng)目交付就至關(guān)重要。具體包括:實(shí)體分類、實(shí)體名稱名稱、中文名稱、英文名稱、數(shù)據(jù)類型、引用標(biāo)準(zhǔn)等。
3. DQC(數(shù)據(jù)質(zhì)量稽核)&數(shù)據(jù)清洗方案
數(shù)據(jù)治理的關(guān)鍵點(diǎn)是提升數(shù)據(jù)治理,所以不同行業(yè)及各個(gè)行業(yè)通用的數(shù)據(jù)質(zhì)量清洗方案及數(shù)據(jù)質(zhì)量稽核的沉淀就尤為重要,比如通用規(guī)則校驗(yàn)身份證號18位校驗(yàn)(15轉(zhuǎn)18)、手機(jī)號為11位(如有國際電話需加國家代碼)、日期格式、郵箱格式等。
4. 腳本開發(fā)
在數(shù)據(jù)類項(xiàng)目中,數(shù)據(jù)mapping確認(rèn)以后就是具體的開發(fā)了,由于數(shù)據(jù)處理方式的共性,可以高度提煉成特定類型的數(shù)據(jù)處理,比如交易流水一般采用追加的方式,每日新增數(shù)據(jù)append進(jìn)來即可。狀態(tài)類的歷史拉鏈表形式等。此過程中的步驟都可以通過自動化程序來實(shí)現(xiàn),同時(shí)借助于上面沉淀的具體標(biāo)準(zhǔn)內(nèi)容,進(jìn)一步規(guī)范化腳本開發(fā)。
5. 指標(biāo)庫
對于一個(gè)行業(yè)的理解一定程度上體現(xiàn)在行業(yè)指標(biāo)體系的建立,行業(yè)常用指標(biāo)是否覆蓋全,指標(biāo)加工規(guī)則是否有歧義是非常重要的兩個(gè)考核項(xiàng),行業(yè)指標(biāo)庫的建立對于業(yè)務(wù)知識的積累至關(guān)重要。
6. 業(yè)務(wù)知識問答庫
行業(yè)知識積累的最直觀體現(xiàn)是業(yè)務(wù)知識問答庫的建立,各類業(yè)務(wù)知識都可以逐步沉淀到問答庫中,并以問答等多種交互方式更便利的服務(wù)于各類使用人員。比如生態(tài)環(huán)境領(lǐng)域AQI的計(jì)算規(guī)則,空氣常見污染因子、各類污染指標(biāo)的排放限值等,都可以以問答對形式進(jìn)行沉淀。
基于以上知識的不斷沉淀積累,在數(shù)據(jù)治理開展過程中即可進(jìn)行智能化推薦。如上圖所示,在做實(shí)體及屬性認(rèn)定時(shí)結(jié)合NLP技術(shù)和知識庫規(guī)則即可進(jìn)行相似度認(rèn)定推薦。
并且隨著行業(yè)知識的不斷積累和完善后期可以直接推薦行業(yè)主題模型及主數(shù)據(jù)模型,以及針對實(shí)體及屬性的數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量檢查規(guī)則的推薦。
總結(jié)
流程化是數(shù)據(jù)治理工作開展第一步,是自動化和智能化的基礎(chǔ),將數(shù)據(jù)治理各節(jié)點(diǎn)開展過程中用到的內(nèi)容進(jìn)行梳理并規(guī)范,包括:業(yè)務(wù)流程圖、網(wǎng)絡(luò)架構(gòu)圖、業(yè)務(wù)系統(tǒng)臺賬等,行業(yè)知識梳理完善以后形成行業(yè)版知識(抽離通用版),如標(biāo)準(zhǔn)文件梳理:1.代碼表整理,2.數(shù)據(jù)元標(biāo)準(zhǔn)整理(數(shù)據(jù)倉庫行業(yè)模型對應(yīng)標(biāo)準(zhǔn)梳理)。
自動化是將流程化標(biāo)準(zhǔn)后的工作進(jìn)行自動化開發(fā),涉及倉庫模型設(shè)計(jì)、標(biāo)準(zhǔn)化、腳本開發(fā)、DQC、指標(biāo)體系自動化構(gòu)建,包括:自動化程序生成和自動化檢查。自動程序生成一是解放生產(chǎn)力,提高效率而是提升開發(fā)的規(guī)范化。自動化檢查包括:1.發(fā)現(xiàn)數(shù)據(jù)問題,出具質(zhì)量報(bào)告(唯一性、空值等通用問題),2.行業(yè)知識檢查(行業(yè)版內(nèi)置,不同行業(yè)關(guān)注的重要數(shù)據(jù)問題,并且會不斷完善知識庫)。
智能化是在流程化、自動化基礎(chǔ)之上針對數(shù)據(jù)拉通整合、主題模型、數(shù)據(jù)加工檢查給出智能化建議,減少人工分析的工作。
總體思路先解決項(xiàng)目上標(biāo)準(zhǔn)化執(zhí)行問題,然后提升建設(shè)效率及處理規(guī)范化問題(自動化處理),最后基于業(yè)務(wù)知識的沉淀最終實(shí)現(xiàn)全流程智能化構(gòu)建。