法規(guī)遵從是歸檔的“源動(dòng)力”?
在談起歸檔的時(shí)候,很多人的第一反應(yīng),就是對(duì)法規(guī)遵從的要求,誠(chéng)然,越來越多的國(guó)家對(duì)于企業(yè)數(shù)據(jù)的長(zhǎng)久保存做出了嚴(yán)格規(guī)定,如美國(guó)就對(duì)其上市公司頒布了要求企業(yè)保存數(shù)據(jù)的薩班斯法案,而就在我寫這篇文章的前幾天,中國(guó)人民銀行正式頒布了《金融機(jī)構(gòu)客戶身份識(shí)別和客戶身份資料及交易記錄保存管理辦法》,據(jù)此辦法規(guī)定,我國(guó)的金融機(jī)構(gòu)應(yīng)當(dāng)自業(yè)務(wù)關(guān)系結(jié)束當(dāng)年或者一次性交易記賬當(dāng)年計(jì)起至少保存5年。交易記錄則自交易記賬當(dāng)年計(jì)起至少保存5年。
無論是美國(guó)的薩班斯法案還是國(guó)內(nèi)針對(duì)金融機(jī)構(gòu)新出臺(tái)的此項(xiàng)規(guī)定,都對(duì)企業(yè)保存其數(shù)據(jù)有了嚴(yán)格的要求,正因?yàn)槿绱?,企業(yè)必須要保存大量的重復(fù)、使用頻度低的過期數(shù)據(jù),這些數(shù)據(jù)也許是幾年甚至十幾年以前的數(shù)據(jù),雖然看似這些數(shù)年前的數(shù)據(jù)只有區(qū)區(qū)幾GB,但是當(dāng)現(xiàn)在成為過去,今天的TB、PB級(jí)的數(shù)據(jù)需要被永久保存的時(shí)候,企業(yè)就不得不面對(duì)如山一樣的數(shù)據(jù)災(zāi)難。
因此,歸檔看似隨著法規(guī)遵從的要求,成為了數(shù)據(jù)存儲(chǔ)的新的熱點(diǎn),實(shí)際上,這種對(duì)歸檔的需求在我們看來是企業(yè)在被動(dòng)的接受,如果企業(yè)不保存數(shù)據(jù)就會(huì)收到懲罰或訴訟失敗等言論甚囂塵上。
對(duì)此我們難免就有疑問,歸檔的出現(xiàn)要比這些所有的法律法規(guī)早的多,難道法規(guī)遵從真的是歸檔的“源動(dòng)力”?難道企業(yè)沒有主動(dòng)的歸檔需求么?
歸檔的需求來源于信息的價(jià)值
其實(shí),當(dāng)我們翻看全球網(wǎng)絡(luò)存儲(chǔ)工業(yè)協(xié)會(huì)(SNIA)如何解釋歸檔的時(shí)候,我們發(fā)現(xiàn),我們的看法與SNIA不謀而合。據(jù)SNIA的《網(wǎng)絡(luò)存儲(chǔ)雙語詞典》解釋,Archive(歸檔)是指數(shù)據(jù)集合的一致性拷貝,通常用以長(zhǎng)期持久地保存事務(wù)或者應(yīng)用狀態(tài)記錄。一般情況下,歸檔通常用以審計(jì)和分析的目的,而不是用于應(yīng)用恢復(fù)的目的。
我們認(rèn)為,這才是歸檔的真正意義所在。
事實(shí)上我們都知道,所有企業(yè)去存儲(chǔ)去歸檔的數(shù)據(jù),都來自于企業(yè)的生產(chǎn),這些數(shù)據(jù)都是企業(yè)在整個(gè)企業(yè)活動(dòng)中所積累的,而不僅僅是0和1的堆疊。這些數(shù)據(jù)的出現(xiàn),不僅體現(xiàn)著企業(yè)發(fā)展的軌跡,更不是一些簡(jiǎn)單的報(bào)表,在這個(gè)競(jìng)爭(zhēng)的年代,它們是明鏡,可以了解企業(yè)的情況;它們是羅盤,可以指引企業(yè)的方向;它們更是翅膀,可以幫助企業(yè)騰飛。
就像EMC公司客戶技術(shù)主管楊明軒先生所說,現(xiàn)在的電信行業(yè)提供了電話清單、計(jì)費(fèi)詳單的查詢,但是只提供給我們五個(gè)之前月、一個(gè)當(dāng)前月的記錄,很多用戶對(duì)這種服務(wù)頗有怨言,但是實(shí)際上,電信公司也希望保存超過六個(gè)月的歷史數(shù)據(jù),這些數(shù)據(jù)其實(shí)就是它們的競(jìng)爭(zhēng)資源。
隨著在數(shù)據(jù)挖掘和知識(shí)管理在今天的日臻完善,包括Microsoft SQL Server Analysis、Cognos、Business Objects在內(nèi)的多種商務(wù)智能(BI)軟件開始為企業(yè)所熟知并應(yīng)用在其生產(chǎn)中,越來越多的企業(yè)正在這些BI軟件來從其數(shù)據(jù)中尋找價(jià)值,以我們剛才所說的電信行業(yè)為例,電信公司正在利用對(duì)用戶過往的花費(fèi)組成,如主叫通話時(shí)長(zhǎng)、被叫通話時(shí)長(zhǎng)、短信、上網(wǎng)流量所占比例,有針對(duì)性的推出一些手機(jī)通話套餐和手機(jī)服務(wù),實(shí)際上我們看到的99套餐、199套餐,雖然被指與單向收費(fèi)有悖,但是仍有許許多多的用戶選擇,就是因?yàn)橛脩舭l(fā)現(xiàn)這些套餐,確實(shí)適合自己的通信要求,而這些套餐的時(shí)長(zhǎng)、費(fèi)率的組合都是與對(duì)過往數(shù)據(jù)的挖掘分不開的。
因此我們看到對(duì)數(shù)據(jù)的所蘊(yùn)藏的價(jià)值的渴望與企業(yè)競(jìng)爭(zhēng)的需要,越來越多的企業(yè)會(huì)需要那些曾被稱作“過期”的數(shù)據(jù),雖然這些數(shù)據(jù)可能只是在進(jìn)行BI的時(shí)候需要那么一兩次,但就是這一兩次所帶來的巨大價(jià)值,促進(jìn)了企業(yè)主動(dòng)歸檔的發(fā)展。我們看到,對(duì)于企業(yè)來說,被動(dòng)的消極的應(yīng)付法規(guī)遵從的需求,只能夠保證其“生存”,而積極的存儲(chǔ)數(shù)據(jù)并從中挖掘價(jià)值,將保證企業(yè)的“發(fā)展”。
實(shí)際上,在我們與很多企業(yè)的交流中,其中一個(gè)CIO提到,如果說到底是哪一點(diǎn)更吸引他們?nèi)w檔數(shù)據(jù),他會(huì)讓CFO明白,讓數(shù)據(jù)賺錢比讓數(shù)據(jù)省錢來的更加有價(jià)值。
CAS 進(jìn)行有效“歸檔” 而不僅僅是存儲(chǔ)
就像我們所說的,歸檔在那些法律法規(guī)頒布之前就已經(jīng)存在了,一直以來,磁帶占據(jù)著歸檔市場(chǎng)的老大位置,很多企業(yè)用磁帶來進(jìn)行備份已經(jīng)有十幾年了,但是磁帶有著其不可逾越的問題。
首先,磁帶介質(zhì)的脆弱和容易丟失讓很多管理員頭痛不已,在談起磁帶的脆弱性時(shí),曾經(jīng)有過8年磁帶銷售經(jīng)歷的EMC的技術(shù)顧問黃斌先生深有感觸,他表示,磁帶存儲(chǔ)的維護(hù)量太大,驅(qū)動(dòng)器容易壞,磁帶更容易壞,他曾經(jīng)有一個(gè)客戶的公司在寫字樓,寫字樓沒有專用的機(jī)房,北方地區(qū)冬天有暖氣,機(jī)房里機(jī)器數(shù)量很多,溫度很高,45度多,在這么高的溫度下磁帶一個(gè)月就全壞了,因?yàn)榇艓撬芰辖橘|(zhì)纏在一起,溫度高就連在一起,數(shù)據(jù)就讀不出來了,所以磁帶很怕高溫。除此以外,磁帶還不能摔不能受潮,更不能接觸任何的帶磁性的物質(zhì)。于是,很多客戶每天都在小心翼翼的維護(hù)著自己的磁帶。
其次是讀取,因?yàn)榇艓У捻樞驅(qū)懭?,順序讀取特點(diǎn),這就造成如果要讀磁帶最里面的數(shù)據(jù),將要把整盤磁帶讀取一遍,而且這還是在確定數(shù)據(jù)在哪一盤磁帶的前提下,否則在磁帶上搜索數(shù)據(jù)將會(huì)是漫長(zhǎng)而又痛苦的。同時(shí),磁帶讀取次數(shù)也有限,因?yàn)榇艓洗欧酆苋菀酌撀?,所以一盤磁帶在讀取了30次左右之后,就會(huì)因?yàn)榇欧勖撀涠荒芡暾淖x取出數(shù)據(jù)。
據(jù)EMC大中國(guó)區(qū)副總裁曹暉介紹,銀行用磁帶已經(jīng)幾十年了,但是現(xiàn)在數(shù)據(jù)迅速增長(zhǎng)。在現(xiàn)在商業(yè)社會(huì),如果需要查詢的資料,比如會(huì)計(jì)制度要審核,根本不可能允許數(shù)據(jù)在很長(zhǎng)時(shí)間之后才從磁帶中獲取。
而這一切都被磁盤存儲(chǔ)所解決,其實(shí)在很多的用戶接觸了磁帶歸檔和磁盤歸檔之后,他們便被磁盤的高速讀取和穩(wěn)定性所吸引。但是我們知道,磁盤存儲(chǔ)門類繁多,那么到底什么樣的磁盤存儲(chǔ)最適合歸檔呢?
實(shí)際上我們談了那么多關(guān)于磁盤存儲(chǔ)的優(yōu)點(diǎn)與歸檔的重要性,我們很難去避開一個(gè)名詞,CAS。大概在五年前,EMC以先行者的身份推出了Centera系統(tǒng),基于內(nèi)容尋址存儲(chǔ)(Content-addressable storage CAS)的歸檔產(chǎn)品?!皟?nèi)容尋址存儲(chǔ)(Content-addressable storage,CAS)”是根據(jù)內(nèi)容(而不是位置)檢索存儲(chǔ)信息的,其具有面向?qū)ο蟠鎯?chǔ)特征,基于磁記錄技術(shù),它按照所存儲(chǔ)數(shù)據(jù)內(nèi)容的數(shù)字指紋尋址,具有良好的可搜索性、安全性、可靠性和擴(kuò)展性。于是,從2002年世界上第一個(gè)內(nèi)容尋址存儲(chǔ) (CAS) 解決方案EMC Centera出現(xiàn)開始,CAS技術(shù)就被越來越多的業(yè)內(nèi)專家所稱道。
毫無例外的,我們依舊會(huì)談到CAS對(duì)法規(guī)遵從的突出貢獻(xiàn),在CAS設(shè)備中進(jìn)行記錄管理與普通陣列是不同的。一旦記錄被存儲(chǔ),就不能被改變,也不能被復(fù)寫。因此,記錄被存儲(chǔ)后,跟蹤記錄修改是沒有任何意義的?D?D也就是說,存儲(chǔ)后不支持任何形式的修改。我們一旦將對(duì)象(文件)存儲(chǔ)在CAS中,這個(gè)對(duì)象就會(huì)受到控制,不可更改。對(duì)于大多數(shù)用戶來說,一個(gè)對(duì)象就是一個(gè)文件,文件的不可更改意味著這個(gè)文件不能被復(fù)寫。這個(gè)性質(zhì)使它符合很多規(guī)章制度的管理需要。
但是另一方面,我們?nèi)灾饕獜钠髽I(yè)的“主動(dòng)歸檔”去看看CAS帶給了我們什么。黃斌先生表示,EMC Centera為代表的CAS在存儲(chǔ)上可以說帶來了第三次浪潮,CAS具有的簡(jiǎn)單管理和高可用性,幫助它大幅度降低了企業(yè)的歸檔管理難度。從技術(shù)角度來說,CAS和SAN、NAS在技術(shù)層面有一個(gè)最大的區(qū)別。SAN、NAS在存儲(chǔ)文件的時(shí)候是按照地址存放文件,用戶找文件的時(shí)候一定要知道它放在哪個(gè)磁盤分區(qū)的哪個(gè)目錄里,否則就要搜索。而CAS沒有分區(qū)、沒有目錄,不需要記住文件路徑,只需要把數(shù)據(jù)交給CAS,CAS會(huì)生成一個(gè)數(shù)字指紋,相當(dāng)于公民身分證,靠一串?dāng)?shù)字和字母組合的數(shù)字指紋來識(shí)別某一段的數(shù)據(jù)。當(dāng)用戶需要找這個(gè)數(shù)據(jù)的時(shí)候,只要提交數(shù)字指紋來獲取數(shù)據(jù),所以它的技術(shù)和傳統(tǒng)的SAN、NAS是完全不同的。這樣的管理性能,成為了很多SAN或NAS系統(tǒng)管理員被無窮無盡的分區(qū)、卷和目錄所折磨時(shí)的渴望。
當(dāng)企業(yè)擁有簡(jiǎn)單的管理并能獲得安全且符合法規(guī)遵從要求時(shí),企業(yè)對(duì)于歸檔的積極性遠(yuǎn)遠(yuǎn)比單純的被動(dòng)遵從法律要高的多,據(jù)楊明軒先生介紹,從2002年EMC推出第一臺(tái)CAS產(chǎn)品Centera開始,現(xiàn)在在國(guó)外已經(jīng)有4000多個(gè)用戶購買了將近一萬臺(tái)的Centera產(chǎn)品,薩班斯法案的立法者,美國(guó)證券交易協(xié)會(huì)就采用了Centera進(jìn)行電子郵件存儲(chǔ)管理。而在國(guó)內(nèi),青島大學(xué)醫(yī)學(xué)院附屬醫(yī)院是EMC的第一個(gè)國(guó)內(nèi)CAS用戶,雖然此前默默無聞,但是實(shí)際上其已經(jīng)應(yīng)用Centera兩年多了。在青島大學(xué)醫(yī)學(xué)院附屬醫(yī)院Centera主要針對(duì)醫(yī)療行業(yè)的PACS系統(tǒng),保存醫(yī)院的影像數(shù)據(jù)。他表示,這種數(shù)據(jù)要采用歸檔的方式保存,但是這種數(shù)據(jù)并不是一種死數(shù)據(jù),而是讓醫(yī)務(wù)人員能夠訪問的一種活躍數(shù)據(jù),我們看到這實(shí)際上正好印證了我們此前所說的“歸檔的需求來源于信息的價(jià)值”,在這里,醫(yī)院的價(jià)值就是可以幫助醫(yī)生更快的了解病人的病情,而CAS正幫助著醫(yī)院快速的訪問這些數(shù)據(jù)并從中獲得其價(jià)值。
在現(xiàn)在的企業(yè)里,我們看到了越來越多的CAS歸檔系統(tǒng),但是這些歸檔系統(tǒng)的作用已經(jīng)離曾經(jīng)的歸檔越來越遠(yuǎn)了,企業(yè)歸檔不再是為了歸檔而歸檔,他們正努力從歸檔中挖掘價(jià)值,CAS讓他們可以快速的歸檔并快速的讀取,用以支持企業(yè)的數(shù)據(jù)挖掘、知識(shí)管理和眾多在線業(yè)務(wù),數(shù)據(jù)從歸檔系統(tǒng)中被提取出來,通過敲敲打打,仔細(xì)剖析,成為了企業(yè)的競(jìng)爭(zhēng)價(jià)值。在這種環(huán)境下,CAS煥發(fā)了青春,我們?cè)?jīng)說過,存儲(chǔ)行業(yè)從來不缺少新聞和新技術(shù),某些技術(shù)也許沉睡了幾天幾個(gè)月甚至幾年,但是總會(huì)有一天突然出來宣告它的大旗仍然飄揚(yáng),而隨著用戶應(yīng)用的普及,這些技術(shù)也會(huì)慢慢的再次宣告它的存在,也許內(nèi)容尋址存儲(chǔ)(Content-addressable storage CAS)就是這樣一個(gè)技術(shù)。