同方物聯(lián)網(wǎng)應(yīng)用產(chǎn)業(yè)本部大數(shù)據(jù)產(chǎn)業(yè)研發(fā)與工程中心數(shù)據(jù)資源應(yīng)用事業(yè)部總經(jīng)理孫哲
封閉系統(tǒng) 保證數(shù)據(jù)質(zhì)量
數(shù)據(jù)質(zhì)量是企業(yè)和政府普遍關(guān)心的問題,數(shù)據(jù)數(shù)量的高低決定數(shù)據(jù)的可信度。目前我國出現(xiàn)一種現(xiàn)象就是,我們總是被平均,被就業(yè),被住房。這導(dǎo)致很多人對國際統(tǒng)計出來的數(shù)據(jù)進(jìn)行懷疑,這種現(xiàn)象就是數(shù)據(jù)質(zhì)量造成的。數(shù)據(jù)為什么會存在偏差,當(dāng)然大量的數(shù)據(jù)里面肯定會有水分存在,但更多的是統(tǒng)計口徑和統(tǒng)計平臺的不同造成的。怎么解決數(shù)據(jù)質(zhì)量的問題?有多年政府信息化工作專長的同方提出了解決路徑,即元數(shù)據(jù)的收集和分析,用元數(shù)據(jù)這種技術(shù)架構(gòu)把數(shù)據(jù)從源頭質(zhì)量上進(jìn)行控制。具體做法是,盡可能的用技術(shù)手段去保證數(shù)據(jù)質(zhì)量。比如在數(shù)據(jù)填報的時候有一些審核工具,就用一些技術(shù)手段確保數(shù)據(jù)的填報過程,同時在描述數(shù)據(jù)的時候,盡可能的把一組數(shù)據(jù)脫離系統(tǒng)。由于數(shù)據(jù)本身很難作假,作假都是人為因素造成的,同方的數(shù)據(jù)統(tǒng)計平臺可以讓數(shù)據(jù)一進(jìn)到系統(tǒng)之后就不被人為干擾,這是統(tǒng)計平臺的一個優(yōu)勢和亮點(diǎn)。
重視知識產(chǎn)權(quán) 保護(hù)數(shù)據(jù)安全
數(shù)據(jù)安全的背后關(guān)系到國家的安全。“棱鏡門”事件引起各國對信息安全的重視。信息來源于數(shù)據(jù),數(shù)據(jù)安全怎么保證?根源上還是要用國家自主知識產(chǎn)權(quán)的產(chǎn)品。尤其是在涉及到數(shù)據(jù)中心等數(shù)據(jù)資源上,各行各業(yè)的數(shù)據(jù)都是如此,掌握在自己手里的數(shù)據(jù)才是最安全的。
技術(shù)上怎樣保證數(shù)據(jù)的安全?
對此,孫哲指出兩點(diǎn)措施:
第一是建立具有自主知識產(chǎn)權(quán)的數(shù)據(jù)錄入交換體系。這就需要我國相關(guān)部門來設(shè)定體系標(biāo)準(zhǔn),建立自主知識產(chǎn)權(quán)的數(shù)據(jù)庫。數(shù)據(jù)庫其實(shí)是造成數(shù)據(jù)孤島的罪魁禍?zhǔn)?,所以同方在進(jìn)行《北京市宏觀經(jīng)濟(jì)與社會發(fā)展基礎(chǔ)數(shù)據(jù)庫》的設(shè)計時采用了數(shù)據(jù)資源體系的方法,即“數(shù)據(jù)資源化,資源體系化”,體系更多的是應(yīng)用,即被使用、被調(diào)用、被共用,資源更多的是盤活、描述和相關(guān)性,就是讓數(shù)據(jù)本身在收集的時候就能自己解釋自己,帶有生命力的匯聚、整合過程,及自描述、自定義過程,讓數(shù)據(jù)能脫離倉庫、報表自己存在,讓數(shù)據(jù)真實(shí)反應(yīng)業(yè)務(wù)的相關(guān)性,那么我們認(rèn)為這樣的數(shù)據(jù)就能成為一種資源。另外,數(shù)據(jù)在采集時還要有特定的主題,使主題更容易去支撐數(shù)據(jù)間的相關(guān)性。當(dāng)然,有些相關(guān)性并不能單純的依靠主題來支撐,但它一定比孤立的把數(shù)據(jù)匯集起來,堆在數(shù)據(jù)倉庫中會顯得更好一些,更靈活一些,更可擴(kuò)展一些。
第二是指標(biāo)體系的建立。指標(biāo)體系里很重要的一個數(shù)據(jù)描述就是時間,同方將其稱為指標(biāo)時間序列?;谥笜?biāo)時間序列所對應(yīng)的數(shù)據(jù),按照這種分類方式采集到的數(shù)據(jù)即便被拿走也不能被利用,因?yàn)樗幸惶转?dú)特的元數(shù)據(jù)規(guī)則,不明白這個規(guī)則的人是沒辦法讀取數(shù)據(jù)的。比如說我們數(shù)據(jù)的編排方式和存放方式是按照國外廠商例如微軟數(shù)據(jù)庫的架構(gòu)進(jìn)行的,我們將數(shù)據(jù)提取出來,然后按照甲骨文的數(shù)據(jù)倉庫存儲方式存放進(jìn)去,任何一個熟悉甲骨文廠商的技術(shù)人員隨隨便便就可以使用和調(diào)取,但如果我們用自己獨(dú)有的指標(biāo)時間序列方式進(jìn)行存放,不懂我們指標(biāo)體系的人就無法使用。所以,要把整套系統(tǒng)全部用指標(biāo)時間序列的方式存放的話,在數(shù)據(jù)安全和可控性上就能夠得到保證,永遠(yuǎn)只服務(wù)于它的組織機(jī)構(gòu),而指標(biāo)時間序列只是指標(biāo)體系中的一種,不同的指標(biāo)序列可以將數(shù)據(jù)的安全性提升到更高水平。
去IOE 自主品牌崛起之愿景
無論是政府部門還是企業(yè),國內(nèi)在搭建數(shù)據(jù)中心的時候,軟件方面基本采用IBM、甲骨文的產(chǎn)品,自主品牌最多起輔助作用,根源上無法保證我國的數(shù)據(jù)安全。在諸多信息安全事件發(fā)生后,從政府至行業(yè)企業(yè),都越來越重視信息安全問題。對于數(shù)據(jù)中心的選用尤為謹(jǐn)慎。對于主做政府信息化的同方來說,數(shù)據(jù)安全是一大挑戰(zhàn),也是尤為重視的問題。在問到同方在數(shù)據(jù)安全這一塊的發(fā)展上時,孫哲舉例表示,從2009年開始,同方在《北京市宏觀經(jīng)濟(jì)與社會發(fā)展基礎(chǔ)數(shù)據(jù)庫》項(xiàng)目進(jìn)行中就很注意安全問題,為保證國產(chǎn)數(shù)據(jù)安全,到2011年項(xiàng)目截止,只有個別采用甲骨文的軟件,剩下的全部都是用同方自己的數(shù)據(jù)資源體系,沒有外采數(shù)據(jù)庫,此外也包括后續(xù)很多項(xiàng)目,都是用自己的數(shù)據(jù)資源體系,很少去用國外廠商的產(chǎn)品。同方在自主知識產(chǎn)權(quán)這一塊的愿景是去IOE——去IBM、Oracle和EMC。雖然目前還沒有這樣的實(shí)例,但孫哲堅(jiān)信,這是我國企業(yè)的共同愿景。在問及選用的標(biāo)準(zhǔn)時,孫哲笑談,不用國外產(chǎn)品的初衷很簡單,我們?yōu)楸WC國產(chǎn)數(shù)據(jù)安全,能不用就不用。