1、 引言
各種海量數(shù)據(jù)應用,如數(shù)字音頻和視頻、Internet信息服務、科學試驗和高性能計算、虛擬現(xiàn)實和企業(yè)信息化系統(tǒng)使存儲需求的呈指數(shù)級增長。UC Berkley (加州理工大學貝克利分校) 2003年研究表明,未來3年內(nèi)所產(chǎn)生的數(shù)據(jù)將超過過去4萬年中產(chǎn)生數(shù)據(jù)的總和,而且93%的新生成的信息為數(shù)字形式。數(shù)據(jù)爆炸性增長使存儲技術日益成為IT應用的核心之一,計算機系統(tǒng)的設計重點也從傳統(tǒng)的以處理為中心轉移到以數(shù)據(jù)應用為中心。應用需求推動了舊的存儲結構不斷完善,新的存儲結構不斷涌現(xiàn):從成熟的直連存儲(DAS)、附網(wǎng)存儲(NAS)和存儲區(qū)域網(wǎng)(SAN),到新的基于IP的SAN和對象存儲等,它們都在應用需求的推動下產(chǎn)生和不斷發(fā)展。
新型網(wǎng)絡存儲技術的應用極大地提高了信息存儲系統(tǒng)的性能和容量,但數(shù)據(jù)增長沒有止境,數(shù)據(jù)的種類也在不斷地擴展:越來越多的非結構化信息不斷出現(xiàn),包括企業(yè)的各種報表、賬單、電子文檔、網(wǎng)站的各種元素、圖片、傳真、掃描影像,以及大量的多媒體的音頻、視頻信息等等。統(tǒng)計表明,來自交易中的數(shù)據(jù)年增長的速度為61%,而其他各種信息的年增長率高達92%。數(shù)據(jù)的爆炸的增長導致存儲系統(tǒng)容量的持續(xù)增加,對于企業(yè)與組織來說,不但要控制數(shù)據(jù)存儲的成本,而且面臨如何有序地存儲、管理并利用這些數(shù)據(jù)的巨大挑戰(zhàn),尤其是那些大量的非結構化數(shù)據(jù)。
如果一個企業(yè)無法將這些數(shù)據(jù)進行有效地管理,則可能面臨生產(chǎn)力不斷流失的危機:統(tǒng)計表明,企業(yè)員工為了完成自己的工作而用于尋找信息的時間平均占整個工作時間的30%,這等于員工每周40個小時的工作時間縮減成了28個小時;另一方面,企業(yè)和組織也希望對這些數(shù)據(jù)進行有效的控制,保障數(shù)據(jù)的安全,挖掘數(shù)據(jù)的價值。因此,數(shù)據(jù)存儲的挑戰(zhàn)變成了數(shù)據(jù)管理的挑戰(zhàn),即從如何保存好數(shù)據(jù)變?yōu)槿绾螌ふ宜枰臄?shù)據(jù)。為了適應這種轉變,必須對整個存儲系統(tǒng)的數(shù)據(jù)進行更好的管理, 建立快速的數(shù)據(jù)查詢和內(nèi)容檢索系統(tǒng),將其轉換成可以用來在商業(yè)領域贏得競爭優(yōu)勢的有價值的信息資產(chǎn)。
2、 內(nèi)容管理系統(tǒng)
提到數(shù)據(jù)管理,大家首先想到的是數(shù)據(jù)庫技術,但實際上這只為企業(yè)解決了15%的結構化數(shù)據(jù)管理問題,85%的非結構化數(shù)據(jù)怎么來管呢?目前,這是企業(yè)內(nèi)容管理系統(tǒng)的職能所在。
內(nèi)容管理是借助信息技術,實現(xiàn)內(nèi)容的采集、創(chuàng)建/更新、存儲、發(fā)布、應用的過程,而內(nèi)容管理系統(tǒng)是能夠支撐內(nèi)容管理的一種工具或一套工具的組合。內(nèi)容管理的對象是以各類非結構化數(shù)據(jù)為主的數(shù)字內(nèi)容:相對于存儲在關系數(shù)據(jù)庫中的結構化數(shù)據(jù)而言,內(nèi)容包括范圍更加廣泛,包括企業(yè)的各種文檔、報表、賬單、網(wǎng)頁、圖片、傳真、掃描影像,以及大量的多媒體的音頻、視頻信息等等。與業(yè)務信息系統(tǒng)中大量用于交易記錄、流程控制和統(tǒng)計分析的數(shù)據(jù)相比,內(nèi)容具有某種特定和持續(xù)的價值,這種價值在共享、檢索、分析等使用過程中得以產(chǎn)生和放大,并最終對企業(yè)的業(yè)務和戰(zhàn)略產(chǎn)生影響。
中文信息處理軟件廠商TRS 將內(nèi)容管理定義為:實現(xiàn)對各種環(huán)境下以各類非結構化和半結構化數(shù)據(jù)為主的內(nèi)容的綜合管理,提供內(nèi)容采集、創(chuàng)建、加工、存儲、傳遞、組織、服務和反饋等內(nèi)容全生命周期過程中所需各項功能,以及元數(shù)據(jù)管理、智能檢索和分析、數(shù)字版權和內(nèi)容安全等專項技術,使內(nèi)容得到高效利用和增值,給內(nèi)容所有者和消費者帶來效益。
可見,內(nèi)容管理不是某種單獨的創(chuàng)新技術,而是許多先進技術的綜合應用,它涵蓋企業(yè)內(nèi)聯(lián)網(wǎng) (Intranet) 、因特網(wǎng) (Internet) 和企業(yè)外聯(lián)網(wǎng) (Extranet) 應用,大大突破了傳統(tǒng)信息流管理軟件、辦公自動化軟件以及文檔管理軟件的應用范圍、使用效果和商業(yè)價值。內(nèi)容管理解決方案重點解決各種非結構化或半結構化的數(shù)字資源的采集、管理、利用、傳遞和增值,并能有機集成到結構化數(shù)據(jù)的商業(yè)智能 (BI) 環(huán)境中,如 ERP,CRM 等,內(nèi)容管理解決方案的終極目標是實現(xiàn)內(nèi)容價值鏈的最優(yōu)化。
分析表明,內(nèi)容管理軟件將成為下一輪IT市場競爭的熱點。META Group 預測,到 2006 年,全球 2000 家知名企業(yè)與組織中的大約 60 %將進入企業(yè)內(nèi)容管理(ECM) 的戰(zhàn)略框架。到 2007 年 ECM市場收入將達到 23 億美元, ECM 服務市場將達到 70 億美元,技術+服務總額接近 100 億的規(guī)模。
盡管內(nèi)容管理軟件從功能到架構,已經(jīng)超越硬件,成為ECM產(chǎn)業(yè)的價值所在,但它必須依靠與硬件(尤其是存儲系統(tǒng))集成為一體化的解決方案。
3、 網(wǎng)絡存儲技術的發(fā)展
3.1 存儲技術的發(fā)展
1987年,加州理工大學貝克利分校的Patterson教授將“分塊”、“交叉存取”以及冗余容錯等技術加以集成,使用廉價的小型磁盤存儲器構造出其性能優(yōu)于IBM3390等大型磁盤存儲器的存儲系統(tǒng),稱為磁盤陣列。磁盤陣列相關技術引發(fā)出近十年來存儲系統(tǒng)蓬勃發(fā)展的局面:90年代開始,各家公司爭相產(chǎn)品化,制造出包括卡式,盒式和其它形式的許多型號、品種的磁盤陣列,廣泛用于主機和服務器中,開創(chuàng)了大型存儲系統(tǒng)的先河。
與此同時,網(wǎng)絡的高速發(fā)展,推動了網(wǎng)絡存儲系統(tǒng)的發(fā)展。美國科學家在執(zhí)行HPSS(高性能存儲系統(tǒng))計劃時提出了“附網(wǎng)存儲”的思想,認為數(shù)據(jù)的獨立性要求存儲系統(tǒng)、存儲設備獨立于服務器和用戶機,而處于同等地位的第三方。這一思路經(jīng)過演變,將服務器功能簡化并增加磁盤陣列以擴大容量和提供容錯能力,專供用戶作文件服務器使用,這便是NAS。NAS并沒有從根本上改變C/S模式,所以在存取數(shù)據(jù)的速度上沒有顯著提高。為改變這種I/O路徑依舊的觀念,誕生了另一類網(wǎng)絡存儲系統(tǒng),這便是以網(wǎng)絡為存儲系統(tǒng)內(nèi)部通道的SAN。
90年代中期,HP、Sun公司提出了一種用高速光纖網(wǎng)絡連接磁盤存儲器組成的存儲系統(tǒng),這便是SAN。它采用網(wǎng)絡路徑取代總線,因而提高了存儲系統(tǒng)的速度,并具有很強的可擴展性。但是,由于目前的網(wǎng)絡多為以太網(wǎng),F(xiàn)C網(wǎng)較少,兩種網(wǎng)的協(xié)議不兼容,因而限制了它的普遍使用。SAN的構思孕育了將單臺磁盤存儲器直接入網(wǎng)的創(chuàng)意,因此又引發(fā)了“對象”式存儲設備的構想。
3.2 對象存儲技術
基于對象的存儲(Object Based Storage Device,OBD) 技術是最近幾年提出的??▋?nèi)基梅隆等多所大學和IBM等公司正在進行該技術的研究,它的思想是將文件系統(tǒng)中操作磁盤的部分程序裁剪并移入到磁盤存儲器中,使之成為一個包含數(shù)據(jù)和操作的對象,而駐留服務器中的文件系統(tǒng)上層只做文件的屬性管理。
一個存儲對象是存儲設備上多個字節(jié)的邏輯集合,它不但包括了數(shù)字對象的數(shù)據(jù),還包括訪問數(shù)據(jù)的屬性、屬性描述、數(shù)據(jù)特征和阻止非授權用戶訪問的安全策略等。對象大小可以變化,它可以存放整個數(shù)據(jù)結構,如:文件、數(shù)據(jù)庫表、醫(yī)學圖像、或多媒體數(shù)據(jù)等。存儲對象具有文件和塊二者的優(yōu)點:像數(shù)據(jù)塊一樣在存儲設備上被直接訪問;通過一個對象接口,能像文件一樣,在不同操作系統(tǒng)平臺上實現(xiàn)數(shù)據(jù)共享。對象存儲系統(tǒng)在基于文件級的數(shù)據(jù)布局、服務質(zhì)量的靈活性和可管理等方面有很大的改善。
對象存儲實現(xiàn)了存儲功能從主機到存儲系統(tǒng)的遷移。如圖1所示,在SAN或DAS中,應用程序首先進行定位,指出要訪問的文件名,由文件系統(tǒng)將文件請求轉換為扇區(qū)塊請求,再向存儲系統(tǒng)發(fā)出存取扇區(qū)塊的請求,這種方式定位邏輯和文件系統(tǒng)都位于主機中。在NAS中,存儲系統(tǒng)中帶有文件系統(tǒng),其中的文件通過網(wǎng)絡共享的形式提供給主機,與SAN相比,文件系統(tǒng)部分從主機遷移到存儲系統(tǒng),而定位邏輯仍然保留在應用程序中,由應用程序指出文件名,在文件中包含有該應用程序需要的數(shù)據(jù)。
圖1 存儲功能從主機到存儲控制器的遷移
在面向?qū)ο蟮拇鎯χ?,存儲空間不再需要運行在主機上的文件系統(tǒng)管理,而由存儲系統(tǒng)自己管理和分配:主機中原先由應用程序執(zhí)行的定位邏輯和由文件系統(tǒng)執(zhí)行的存儲空間管理功能遷移到存儲系統(tǒng)中,應用程序只需要指出待訪問的對象既可。
目前,已有一些對象存儲系統(tǒng)的實例,如NASD、LUSTRE 、CAS等。NASD主要目標是提供一個安全的網(wǎng)絡硬盤;LUSTRE是一種支持從小型的到特大型集群的可擴展的集群文件系統(tǒng);CAS通過文件內(nèi)容獲取文件,它對文件的內(nèi)容進行計算得到固定長度的數(shù)字代替文件名大大降低了應用軟件操縱和管理存儲介質(zhì)上所存儲信息的物理地址的難度,非常適合于固定內(nèi)容存儲需求。
3.3 CAS存儲技術的優(yōu)勢
正如SAN完全為優(yōu)化塊數(shù)據(jù)、而NAS完全為優(yōu)化文件數(shù)據(jù)而設計一樣,CAS專門針對固定內(nèi)容存儲需求而設計。傳統(tǒng)基于文件系統(tǒng)的存儲系統(tǒng),包括DAS、NAS和SAN,不具有固定內(nèi)容存儲需要的特性:這些系統(tǒng)是追求高性能而不是高度永久性,在塊中分布數(shù)據(jù)而不是使空間效率最大化,為了讀寫數(shù)據(jù)而不是永久地保存數(shù)據(jù),并且只提供了一些安全措施,而沒有堅實的抗毀性。固定內(nèi)容數(shù)據(jù)必須被長期保存,以便今后檢索,這時間可能超過了基于磁盤文件系統(tǒng)硬件的壽命,而且也可能超過了存儲軟件系統(tǒng)和他們接口的壽命。固定內(nèi)容存儲系統(tǒng)中需要具有區(qū)別于文件系統(tǒng)的特性:極大地降低存儲成本,不可改變的特性(一次寫入、多次讀取),高可靠性(校驗和檢測、消除復制);以及區(qū)別于其他存儲系統(tǒng)的特性:比磁帶系統(tǒng)更小的延時,通用的接口,搜索能力(尤其是在PB級存儲系統(tǒng)中),和幾十年后或幾百年后對資料的讀取可以像現(xiàn)在對本地或分布系統(tǒng)的讀取一樣方便。
內(nèi)容尋址技術有幾個好處:(1)迅速定位:每一個對象都有其唯一的ID,CAS系統(tǒng)根據(jù)這個ID能夠迅速地定位到其對應的對象。而在傳統(tǒng)的文件系統(tǒng)中,在定位文件時,需要搜索文件目錄和文件;在訪問文件時,又需要將文件的邏輯地址轉換為塊設備的物理存儲地址,這些都需要較大的系統(tǒng)開銷;(2)完整性驗證:對CAS系統(tǒng)返回的對象,應用程序可以使用報文摘要函數(shù)驗證該對象是否被篡改;(3)能夠提高存儲利用率:對于應用程序產(chǎn)生的重復的對象,由于這些對象的內(nèi)容計算出的ID相同,在存儲系統(tǒng)中只需要保存一份拷貝,而傳統(tǒng)的文件系統(tǒng)則需要重復占用空間。
ESG(企業(yè)存儲集團)分析報告指出,CAS技術出現(xiàn)的非常及時,關于固定內(nèi)容的存儲需求已經(jīng)很高,并將不斷增長,而傳統(tǒng)的文檔存儲解決方案的局限性也在不斷暴露。
CAS技術的出現(xiàn)使非結構化數(shù)據(jù)管理成為存儲業(yè)新的熱點。但非結構化數(shù)據(jù)更多涉及到的應用是數(shù)據(jù)歸檔和查詢,因此,內(nèi)容管理成為其獨特解決方案的必要背景。
4、 網(wǎng)絡存儲與內(nèi)容管理的結合
4.1 傳統(tǒng)存儲系統(tǒng)與內(nèi)容管理的集成
傳統(tǒng)的網(wǎng)絡存儲和內(nèi)容管理是兩個獨立的技術領域,存儲系統(tǒng)只負責底層的數(shù)據(jù)存儲與獲取,數(shù)據(jù)存儲的地址管理由應用處理。在這種情況下,數(shù)據(jù)存儲采用分級存儲技術將不同存儲系統(tǒng)(磁盤陣列和磁帶庫)組合起來,企業(yè)內(nèi)容管理將不同的數(shù)據(jù)管理系統(tǒng)(數(shù)據(jù)庫、內(nèi)容管理系統(tǒng)和企業(yè)應用程序系統(tǒng))組合起來。分級存儲技術首先將不同的存儲設備進行分級管理,形成兩個以上不同等級的存儲池;其次通過對存儲利用情況和數(shù)據(jù)的分析,采用一個預先定義的策略自動實現(xiàn)數(shù)據(jù)的在不同存儲池之間的遷移。分級存儲技術通過輔助存儲設備來減少對主存儲設備的容量需求,極大地降低存儲系統(tǒng)總成本。
這種集成方案的靈活性差,當應用程序面臨可伸縮性和可用性問題時,一些有價值的信息會淹沒在海量數(shù)據(jù)中。
4.2 CAS與內(nèi)容管理的結合
CAS網(wǎng)絡存儲技術促進了面向?qū)ο缶W(wǎng)絡存儲時代的到來。
2002年4月EMC推出了第一代Centera內(nèi)容尋址存儲(CAS)平臺。Centera存儲來自應用程序的對象。當應用程序?qū)⒁粋€對象通過調(diào)用API存儲到Centera中時,API使用報文摘要函數(shù)為這個對象的內(nèi)容生成一個128位的ID(稱為Use File Content Address)。然后將這個ID插入到元數(shù)據(jù)中形成一個XML文件(稱為C-Clip Descriptor File), XML文件包括了這個對象的存儲位置、訪問權限、創(chuàng)建時間、對象的ID等信息;再對這個文件計算一個報文摘要。然后,API將元數(shù)據(jù)和它的摘要,以及元數(shù)據(jù)和它的摘要一起通過網(wǎng)絡傳送到Centera中保存。最后,將元數(shù)據(jù)的摘要返回給應用程序。應用程序通過對象的ID可以直接存取對象。
圖2 存儲與內(nèi)容管理結合的方式
在Centera中,應用程序不再使用傳統(tǒng)的文件訪問或塊訪問接口,要求應用程序必須進行修改,使用Centera的API來實現(xiàn)存儲。目前,已有不少的內(nèi)容管理軟件廠家對原有的應用進行了移植,在Centera的API上開發(fā)出了具體應用,如文檔歸檔與內(nèi)容管理系統(tǒng)、E-mail歸檔系統(tǒng)、醫(yī)療圖像歸檔與管理系統(tǒng)。
4.3 未來的方向
顯然,Centera 系統(tǒng)具有一定的限制性:(1)由于每一個對象都有一個元數(shù)據(jù)和它相對應,需要額外的存儲開銷。因此,Centera并不適合存儲那些長度為幾十個字節(jié)的小對象,否則會造成空間的浪費。(2) Centera只提供API接口,要求應用程序必須進行修改來實現(xiàn)存儲。(3) Centera最小系統(tǒng)是4個節(jié)點。這些限制對于預算有限、開發(fā)能力不強的中小型企業(yè)來說是難以逾越的障礙。
然而,不管如何,Centera內(nèi)容尋址存儲系統(tǒng)將一些內(nèi)容管理功能如元數(shù)據(jù)技術和高速索引技術集成到存儲系統(tǒng)之中,它啟動了網(wǎng)絡存儲與內(nèi)容管理結合的新紀元(圖2b);未來,更多的內(nèi)容技術將與存儲系統(tǒng)實現(xiàn)結合,原本存在于內(nèi)容管理系統(tǒng)、數(shù)據(jù)倉儲、存儲系統(tǒng)之間的界限將日益變得模糊,提供所有這些服務的統(tǒng)一視圖的平臺將會出現(xiàn)。
有可能出現(xiàn)一種新的基于內(nèi)容管理的存儲系統(tǒng)平臺(圖2c),它擴展了最新的對象存儲體系結構,支持對象倉儲和聯(lián)邦數(shù)據(jù)庫技術,支持關系和 XML 作為主要數(shù)據(jù)模型,并緊密地集成了內(nèi)容管理服務、工作流、消息傳遞、分析和其它企業(yè)應用程序服務。
5、 討論
企業(yè)和組織迫切需要將內(nèi)部的各種內(nèi)容進行有序管理、挖掘其價值,并支持有關標準和規(guī)范。據(jù)ESG估計,在未來幾年內(nèi),符合有關標準和規(guī)范的新型網(wǎng)絡存儲系統(tǒng)解決方案、網(wǎng)絡存儲系統(tǒng)產(chǎn)品以及網(wǎng)絡存儲系統(tǒng)服務,具有潛在的60億美元的市場空間,這無疑是開發(fā)先進網(wǎng)絡存儲技術的巨大動力。
從上面的技術淺析可以看到,在內(nèi)容管理和網(wǎng)絡存儲技術的世界里,隨著內(nèi)容存儲的概念登上了企業(yè)內(nèi)容管理領域的舞臺,技術融合正在改變存儲系統(tǒng)和企業(yè)內(nèi)容管理系統(tǒng)(ECM)領域的格局,兩個以前不相關的技術已經(jīng)開始走向結合了,現(xiàn)在是它的開始。
今后,存儲技術領域?qū)⒚媾R更多的新技術和很多重要的融合,我們必須不斷努力,因為對于ECM廠商,潛在的內(nèi)容市場也是他們想去開發(fā)的處女地。
6、致謝
本文引用了華中科技大學謝長生教授、北京理工大學譚毓安博士、暨南大學韓德志博士有關論文中的資料,引用了DoSTOR和一些網(wǎng)站的有關內(nèi)容,在此一并致謝。
訂閱《信息存儲》雜志請 點擊此處鏈接