SPECsfs2008測試軟件用于評估網(wǎng)絡(luò)文件系統(tǒng)(也就是人們通常所說的NAS或者文件服務(wù)器)的IOPS性能,目前的版本包括NFSv3和CIFS兩種協(xié)議的工作負(fù)載

SPEC(www.spec.org)的全稱是Standard Performance Evaluation Corporation(標(biāo)準(zhǔn)性能評估組織)。SPEC是由計(jì)算機(jī)廠商、系統(tǒng)集成商、大學(xué)、研究機(jī)構(gòu)、咨詢等多家公司組成的非營利性組織,這個組織的目標(biāo)是建立、維護(hù)一套用于評估計(jì)算機(jī)系統(tǒng)的標(biāo)準(zhǔn)。SPEC的成員包括AMD、蘋果、Cisco、戴爾、EMC、富士通、日立、惠普、IBM、Intel、微軟、NEC、Novell、NVIDIA、Oracle、Red Hat、SGI等軟硬件廠商。

SPEC現(xiàn)有的測試軟件包括:CPU、圖形/工作站應(yīng)用、高性能計(jì)算(MPI/OMP,消息傳遞界面)、Java客戶端/服務(wù)器、郵件服務(wù)器、網(wǎng)絡(luò)文件系統(tǒng)(NFS/CIFS)、電源功耗、虛擬化和Web服務(wù)器等方面 ,可以看出都是企業(yè)級而非PC的應(yīng)用領(lǐng)域。由于筆者之前的從業(yè)經(jīng)驗(yàn),對SPEC GWPG(圖形和工作站性能小組)推出的SPECviewperf和SPECapc系列專業(yè)顯卡OpenGL性能/3D設(shè)計(jì)軟件測試可以說是最為熟悉。

初步對比:全年6款系統(tǒng)不斷“打破紀(jì)錄”

SPECsfs2008_NFS.v3測試對比(按成績公布時間排序)

上表是我們從SPEC網(wǎng)站SFS2008測試結(jié)果中選取的一部分,從上到下按照發(fā)布時間排序(上面2行IBM SONAS和EMC VNX同時出現(xiàn)SPEC在網(wǎng)站);并且每一個系列的產(chǎn)品,比如Isilon S200和NetApp Data ONTAP 8.1只列出了最高(也就是節(jié)點(diǎn)數(shù)最多的)配置。

這里面比較的性能其實(shí)就是“吞吐量”一列,通過數(shù)字從上到下不斷提高,可以看出各廠商就是為了破紀(jì)錄而來的。

眾所周知,集群NAS存儲系統(tǒng)通常能夠提供比常規(guī)NAS更高的IOPS和帶寬性能。上表中只有EMC VNX是個例外,它使用了VG8網(wǎng)關(guān)(5個XBlade NAS機(jī)頭,其中還有一個備用)處理文件系統(tǒng),后端則是VNX5700 SAN陣列。而且EMC在這里的內(nèi)存、驅(qū)動器數(shù)和輸出容量都遠(yuǎn)小于其它系統(tǒng),僅457個驅(qū)動器就提供了497,623 IOPS(平均每個盤超過1000),顯然是SSD固態(tài)盤而非傳統(tǒng)機(jī)械硬盤。

除此之外,表格中列出的所有系統(tǒng)都提供萬兆以太網(wǎng)接口。IBM SONAS(Scale Out Network Attached Storage)1.2的文件系統(tǒng)輸出容量最大;Isilon S200使用的節(jié)點(diǎn)數(shù)(140)、驅(qū)動器和網(wǎng)絡(luò)接口的數(shù)量最多;24節(jié)點(diǎn)的NetApp Data ONTAP 8.1集群模式總內(nèi)存容量最大(都是DRAM?)。而它們的性能都沒有“后來者”Avere FXT 3500高,看來我們需要了解更多的測試配置細(xì)節(jié)。

NetApp一同公布的6款Data ONTAP 8.1 Cluster-Mode配置測試結(jié)果,節(jié)點(diǎn)數(shù)從4~24個FAS6240統(tǒng)一存儲陣列不等,可以看出性能幾乎是同比例的線性提升(由于沒有看到更多的數(shù)據(jù),不敢保證超過24節(jié)點(diǎn)還能達(dá)到這樣的擴(kuò)展效率)。NetApp收購的Spinnaker集群文件系統(tǒng)終成正果。另外,Isilon S200隨節(jié)點(diǎn)數(shù)擴(kuò)展的效率也差不多。

SPECsfs2008_CIFS測試對比(按成績公布時間排序)

NFS文件訪問協(xié)議廣泛應(yīng)用于Linux和UNIX環(huán)境,而CIFS的推動者則是微軟(Windows)。針對2種不同環(huán)境下的典型應(yīng)用存儲訪問特點(diǎn),SPECsfs2008的NFS和CIFS測試建立的負(fù)載模型也是不同的,這就是相同配置普遍能夠在后者中獲得更高IOPS(見上表)的原因。有些廠商認(rèn)為CIFS在企業(yè)級數(shù)據(jù)中心環(huán)境不具備廣泛的適用性,因此不會進(jìn)行SPECsfs2008 CIFS測試,在這里我們只能看到前面6款系統(tǒng)中的3款,僅供參考。

深入分析影響企業(yè)存儲性能關(guān)鍵因素

這就是我們從測試報(bào)告中歸納出的更多內(nèi)容,接下來的分析將有助于理解不同產(chǎn)品/廠商之間的差異和影響性能的因素。

首先是節(jié)點(diǎn)數(shù)。IBM SONAS系統(tǒng)中包括接口節(jié)點(diǎn)、存儲節(jié)點(diǎn)及其后端連接的塊存儲RAID陣列(含控制器);EMC VNX是典型的NAS網(wǎng)關(guān)+SAN(相當(dāng)于原來的Celerra+CLARiiON)的統(tǒng)一存儲形式;華為賽門鐵克Oceanspace N8500集群NAS前端使用8個引擎處理文件系統(tǒng),后面也是提供塊訪問的S5600陣列;EMC Isilon和NetApp Data ONTAP 8.1集群模式分別使用的是對等的140節(jié)點(diǎn)/24控制器,不過前者的硬件專門為集群NAS而設(shè)計(jì);Avere的產(chǎn)品則比較特別,嚴(yán)格的說它應(yīng)該屬于文件系統(tǒng)加速器,44個FXT 3500節(jié)點(diǎn)放在4臺運(yùn)行OpenSolaris系統(tǒng)的NFS服務(wù)器(大容量存儲)和訪問主機(jī)之間,前后端都通過NFS協(xié)議連接并實(shí)現(xiàn)緩存加速。

系統(tǒng)內(nèi)部的互連網(wǎng)絡(luò)也能反映出各自的特點(diǎn)。首先,IBM SONAS和EMC Isilon這兩款專門設(shè)計(jì)的集群NAS軟硬件系統(tǒng),節(jié)點(diǎn)之間(SONAS是接口和存儲節(jié)點(diǎn))都使用了高速的20Gb/s InfiniBand網(wǎng)絡(luò);EMC VNX的X-Blade和SPE之間通過8Gb/s光纖通道連接;華賽N8500雖然給出的細(xì)節(jié)較少,但它使用了8Gb/s的FC交換機(jī)和驅(qū)動器(4Gb/s FC-AL);24控制器的NetApp Data ONTAP 8.1集群模式值得一提,它全部的72個10GbE接口中有48個用來處理節(jié)點(diǎn)間的通信(剩下24個連接主機(jī)),可見并行文件系統(tǒng)需要的通信量之大;每個Avere FXT 3500節(jié)點(diǎn)和后端大容量存儲各自提供1個萬兆網(wǎng)口,很容易看出前后端的帶寬限制為4*10Gb/s,不過大部分來自主機(jī)的訪問應(yīng)該都被緩存處理了。

再來看看驅(qū)動器(硬盤/閃存)。傳統(tǒng)機(jī)械硬盤部分我們覺得不需要多說,下面看看SSD和閃存部分。EMC VNX使用了436個200GB SSD的全閃存配置,性能自不必說,不過考慮到閃存容量價格比的因素,估計(jì)沒有幾個用戶會在實(shí)際應(yīng)用的NAS中這樣做。

Isilon S200在每個節(jié)點(diǎn)上都安裝了一個200GB的SSD,它們不是用來存放用戶數(shù)據(jù),而是以鏡像方式保存文件系統(tǒng)的元數(shù)據(jù)(這里也可以看出 InfiniBand互連的重要性),NAS系統(tǒng)的元數(shù)據(jù)處理能力在小數(shù)據(jù)塊IOPS類應(yīng)用中容易成為瓶頸,SSD的高隨機(jī)訪問能力正是為了解決這一點(diǎn)。

NetApp Data ONTAP 8.1集群模式中每個FAS6240節(jié)點(diǎn)上都有一塊PCIe接口的PAM II Flash Cache閃存卡(據(jù)說已經(jīng)成為免費(fèi)的標(biāo)配),用于WAFL文件系統(tǒng)的讀緩存可顯著提升IOPS性能。正是這部分一共12288GB使該系統(tǒng)在前面表格中的內(nèi)存容量大幅領(lǐng)先。

Avere系統(tǒng)中的4個200GB并不是放在FXT 3500加速節(jié)點(diǎn),而是位于4臺后端大容量存儲服務(wù)器上存放ZFS文件系統(tǒng)的日志(這就是為什么會安裝OpenSolaris系統(tǒng))。

在文件系統(tǒng)/RAID這部分,我們主要關(guān)注的是命名空間的數(shù)量和驅(qū)動器冗余保護(hù)的方式。IBM SONAS使用的GPFS、Isilon OneFS、NetApp Data ONTAP 8.1集群模式和Avere FXT 3500都是單一命名空間,但底層的實(shí)現(xiàn)方式有所不同。IBM的GPFS文件系統(tǒng)跨越208個RAID 5建立;Isilon OneFS則是自身處理13+1的硬盤Parity(奇偶校驗(yàn));NetApp每個FAS6240統(tǒng)一存儲本地的WAFL文件系統(tǒng)未必整合,而底層是96 個硬盤的RAID-DP(雙校驗(yàn)盤,類似于RAID 6);Avere最為獨(dú)特,每個FXT 3500加速節(jié)點(diǎn)上各自配置了15個600GB 10KB驅(qū)動器,作為DRAM內(nèi)存之后的第二層緩存,再加上后端4臺存儲服務(wù)器中88個3TB 7.2K硬盤21+1 RAID 5(通過ZFS文件系統(tǒng)配置的軟件RAIDZ)組成分層存儲的架構(gòu)。

這里剩下EMC VNX和華賽N8500特別一些,倒不是說底層為RAID 5還是RAID 10,而是它們在測試中都使用了8個文件系統(tǒng),也就是說8個單獨(dú)的NAS命名空間。據(jù)筆者了解,EMC從Celerra時期繼承過來的UxFS單個文件系統(tǒng)支持的最大容量為16TB,NetApp Data ONTAP 7.x也是如此(Data ONTAP 8支持100TB,而8.1集群模式顯然突破了這個數(shù)字),所以我們稱它們?yōu)閭鹘y(tǒng)NAS而非集群NAS產(chǎn)品。

華賽N8000系列產(chǎn)品使用的VxFS(Veritas File System)來自于賽門鐵克,華為回購合資公司股份后名稱估計(jì)早晚會改變,技術(shù)上的合作筆者說不好。根據(jù)資料N8500單個文件系統(tǒng)最大支持512TB(戴爾收購Exanet后推出的DSFS目前為509TB,二者很接近),不過在SPECsfs2008測試中可能是為了獲得更好的性能,在8個Engine上各自運(yùn)行了一個文件系統(tǒng)。

最后是CPU和內(nèi)存。記得有一位同行曾經(jīng)問過筆者,當(dāng)今的企業(yè)存儲系統(tǒng)性能瓶頸存在于哪里?筆者簡單思考了一下:介質(zhì)方面——單個SSD驅(qū)動器動輒能夠提供數(shù)萬IOPS,PCIe閃存卡甚至可達(dá)數(shù)十萬;I/O方面——最新的16Gb/s FC HBA和10GbE網(wǎng)卡(FCoE/iSCSI訪問)可以實(shí)現(xiàn)100萬IOPS,那么只剩下CPU了?其實(shí)對于傳統(tǒng)雙控制器陣列或許如此,但從現(xiàn)在Scale-out(橫向擴(kuò)展)的EMC Symmetrix VMAX、惠普3PAR和Scale-up的HDS VSP這些高端存儲系統(tǒng)來看,真正影響性能的關(guān)鍵因素應(yīng)該在于整體架構(gòu)設(shè)計(jì),包括內(nèi)部I/O互連、緩存算法以及軟件內(nèi)核優(yōu)化等。

回到SPECsfs2008文件系統(tǒng)測試上,我也曾想過性能結(jié)果是否與CPU的處理能力總和成正比?經(jīng)過本文的分析之后,答案顯然是否定的,140個節(jié)點(diǎn)的Isilon S200一共在這里擁有數(shù)量最多的280顆4核Intel Xeon E5620處理器,而它并沒有保持性能紀(jì)錄到年底。相比之下,EMC VNX處理文件系統(tǒng)的僅有4顆6核Xeon X5660(每個X-Blade上一顆),SSD卻使其曾經(jīng)處于“冠軍寶座”。

需要說明的是,我們列出的有些系統(tǒng)在各種節(jié)點(diǎn)中使用了不同數(shù)量/型號的至強(qiáng)CPU,華賽N8500后端的S5600甚至采用AMD Opteron,這些都不是重點(diǎn)。內(nèi)存容量(有的系統(tǒng)沒有將NVRAM全部列出來)同樣也是僅供讀者參考的數(shù)字,NetApp Data ONTAP 8.1集群模式擁有龐大的分布式Flash Cache閃存層, Isilon S200的DRAM總量也不低于Avere FXT 3500(只是分散在更多的節(jié)點(diǎn)上),而它們最后還是被超越了。

總結(jié):基準(zhǔn)測試的意義與展望

其實(shí)對于NAS存儲設(shè)備而言,相對于塊存儲陣列增加了維護(hù)文件系統(tǒng)的開銷,因此主要針對的是非結(jié)構(gòu)化數(shù)據(jù)用途。通常很少有人將Oracle數(shù)據(jù)庫等典型的OLTP交易型應(yīng)用放在NAS上;如果是服務(wù)器/桌面虛擬化的磁盤鏡像文件會有IOPS性能方面的需求;媒體/娛樂業(yè)(包括廣電行業(yè)中的視頻采集/編輯)、高性能計(jì)算這些主要還是對大數(shù)據(jù)塊的帶寬性能較為敏感;而歸檔存儲的順序?qū)懭肽J叫阅芤笙鄬Ω?最近開始流行的大數(shù)據(jù)分析則可能混合有不同類型的工作負(fù)載。

總之,可能會有相當(dāng)部分的NAS(甚至集群NAS)用戶不在乎IOPS,但目前的情況是該領(lǐng)域只有一款得到業(yè)內(nèi)公認(rèn)的SPECsfs2008測試軟件,于是就出現(xiàn)了本文開頭所寫的尷尬情況。不過可喜的是,經(jīng)過我們的詳細(xì)分析,相信每一位關(guān)注企業(yè)存儲行業(yè)、熱愛技術(shù)的讀者都能有所收獲——基本搞清了影響測試結(jié)果“背后”的因素。

同時本文也印證了“閃存被高效利用”、“完善的自動分層存儲技術(shù)”這些截至目前,乃至將貫穿2012的大趨勢。它們將繼續(xù)帶來絕對性能、存儲效率和性價比的提高,并且應(yīng)該會成為包括Scale-out擴(kuò)展方式集群NAS在內(nèi)的企業(yè)存儲系統(tǒng)發(fā)展方向。畢竟對于速度這東西來說,誰不想要更快的呢?

分享到

wangzhen

相關(guān)推薦