正所謂商場如戰(zhàn)場,對商業(yè)版圖的開疆拓土同樣離不開智謀無雙的大軍師,在全閃存的世界中,滿足企業(yè)級應用,堪稱“大軍師”的唯有華為OceanStor Dorado V3。原因也很簡單,首先它具備極致的領先性能;而且從可靠性到大容量閃存存儲、數(shù)據(jù)一致性;從SSD盤到系統(tǒng),從IO調度到網(wǎng)絡協(xié)議,唯有華為OceanStor Dorado V3能夠全部覆蓋,并進行端到端的優(yōu)化保障,有“勇”有“謀”,保障企業(yè)級應用又快又穩(wěn)。

3D NAND+在線數(shù)據(jù)縮減技術 激活全閃存市場

按照Gartner公司的預計,全閃存陣列市場的整體規(guī)模將以年均37%的復合增長率持續(xù)拓展,這意味著其將從2014年的14.3億美元增加到2019年的70億美元。也許有用戶會說,區(qū)區(qū)幾十億美元市場,相比存儲市場百億美元規(guī)模不過是九牛一毛,為什么要關注全閃存市場呢?

如果了解閃存市場就會知道:較之磁盤,SSD盤(閃存盤)在價格上還有臺階級差別,特別是去年,SSD價格還有所上升,無論從$/GB成本,還是產(chǎn)能上,SSD目前還沒有本質上的突破。但是用戶也應該看到,目前SSD制造正處在從2D向3D轉型中,產(chǎn)線和技術投入帶來了市場短期波動,但從前瞻性出發(fā),未來3D NAND會大幅度拉低SSD盤$/GB成本,隨著3D NAND產(chǎn)線投產(chǎn)和產(chǎn)品量產(chǎn),SSD在價格上會有突破性進展。

另外一個關鍵是用戶觀念的改變。有關SSD盤$/GB成本,多是根據(jù)裸容量計算得出,而忽略了隨著SSD盤性能提升,在線重復數(shù)據(jù)刪除、數(shù)據(jù)壓縮已經(jīng)成為全閃存系統(tǒng)的標準配置,常規(guī)武器。它意味著同等容量,SSD盤可以處理和存儲數(shù)倍超越磁盤的數(shù)據(jù),以OceanStor Dorado V3為例,針對數(shù)據(jù)庫、VDI、服務器虛擬化等閃存常用場景,即使使用保守的估計,也能夠提供3:1的數(shù)據(jù)縮減,也就是3倍容量。按照這個標準計算,SSD的成本已經(jīng)和HDD持平,全閃存加速發(fā)展的時代已經(jīng)到來!

在這里額外需要補充的一個細節(jié)是:目前,業(yè)內廠家提供兩種形態(tài)的全閃存陣列,一種是在既有混合存儲形態(tài)上進行封裝,可以稱為改良型全閃存陣列;一種是針對閃存介質進行包括在算法、架構和設計上的全面革新,可以稱為原生型全閃存。前后者的差距在于極致的時延,以及開啟在線重刪、壓縮等特征后性能還能持續(xù)穩(wěn)定的產(chǎn)品能力。真正有能力完成后者軟硬件設計、驗證到上市的廠家和產(chǎn)品在業(yè)內并不多。華為OceaStor Dorado V3正屬于后者,這是需要認真加以關注和比較的地方。

將閃存應用到企業(yè)級存儲應用場景,并不是SSD盤對于磁盤的簡單替換,在性能、雙活可靠性、IO調度、冷熱數(shù)據(jù)分區(qū)、元數(shù)據(jù)緩存機制、外部網(wǎng)絡連接、NVMe協(xié)議支持,以及數(shù)據(jù)靜默故障應對等很多技術細節(jié)上,都要求全閃存陣列能夠做到盡善盡美。這樣才能夠真正替代傳統(tǒng)磁盤存儲,滿足關鍵業(yè)務應用的需要。

對此,以華為OceanStor Dorado V3原生型全閃存存儲為參照,能了解相關的技術和細節(jié)。最新更新的OceanStor Dorado5000 V3基于NVMe協(xié)議,新設計的硬件架構支持雙端口NVMe SSD,以及三盤同時拔插更換,全新的并行軟件架構能充分發(fā)揮NVMe的高性能優(yōu)勢。

華為全閃存陣列的十八般武藝

之所以選擇全閃存陣列,首先就是性能的因素。從性能指標上來說,除了IOPS之外,更重要的是時延。對于基于傳統(tǒng)磁盤陣列改良的全閃存陣列(磁盤用SSD替換,控制管理軟件進行調優(yōu)),由于其架構還是針對磁盤設計,這樣的全閃存陣列極致時延可以達到1ms左右,但在業(yè)務負載高或者開啟如重刪、壓縮等功能特性時,其時延會陡增到3ms,甚至更高。與之相比,華為OceanStor Dorado V3是針對SSD特質而設計的全閃存陣列,其時延可以控制在0.5ms。

影響系統(tǒng)時延的因素很多,既有SSD盤、系統(tǒng)硬件架構設計的原因,也有網(wǎng)絡和IO控制的原因。與很多原生全閃存陣列產(chǎn)品設計不同,華為OceanStor Dorado V3采用自己設計的SSD盤,具有最底層硬件的設計的能力,其中最重要的SSD控制器芯片設計,它采用Cortex-A9處理器,支持DDR4和18個NAND Flash通道設計。為了控制時延,F(xiàn)TL(Flash Translation Layer)SSD數(shù)據(jù)讀/寫控制集中檢索和訪問這個關鍵節(jié)點,華為采用了硬件加速的方式,所有讀取和寫入FTL的操作全部由硬件完成,減少軟件交互次數(shù),從而減小延時,在低負載場景下,其時延僅有40μs,比業(yè)界低20%。

華為自研SSD性能數(shù)據(jù)

SSD盤之上,盤控技術,也就是數(shù)據(jù)寫入SSD的控制方式,也會對時延構成影響。就SSD盤而言,數(shù)據(jù)是按照一個一個的page(頁)寫入到block(塊),為此,首先要通過垃圾回收找到垃圾量高的block,將其中有效數(shù)據(jù)搬移,擦除對應的塊,然后寫入數(shù)據(jù)。對于盤片來說,相同邏輯位置上的page發(fā)生了新寫,原物理位置的page就會變?yōu)闊o效的垃圾,各個page從寫入到變?yōu)闊o效的周期越接近,在一定時間內都變?yōu)槔目赡苄愿摺?/p>

就數(shù)據(jù)而言,其更新頻率差異很大,其中,元數(shù)據(jù)更新非常頻繁,用戶數(shù)據(jù)更新的周期相對較慢,如果元數(shù)據(jù)和用戶數(shù)據(jù)混合在一起寫入盤上同一個block,那么元數(shù)據(jù)對應的物理page會很快失效,但是用戶數(shù)據(jù)對應的物理page仍然有效,最終在垃圾回收時不得不大量的搬移用戶數(shù)據(jù),導致盤上寫放大過大,影響SSD盤片的壽命和性能。

對此,OceanStor Dorado V3是通過FlashLink技術將存儲系統(tǒng)中更新頻繁的元數(shù)據(jù),以及相對不頻繁的用戶數(shù)據(jù)寫入到不同的擦除塊上,并保證元數(shù)據(jù)和用戶數(shù)據(jù)寫入的擦除塊定期互換實現(xiàn)磨損均衡。此外,該技術也針對冷熱數(shù)據(jù)提供多個數(shù)據(jù)分區(qū),根據(jù)數(shù)據(jù)冷熱標識將冷熱數(shù)據(jù)分開存放,從而降低SSD垃圾回收的搬移數(shù)據(jù)量,如此,又將系統(tǒng)時延降低了20%,同時也將寫放大降低了約40%,從而有效延長了SSD盤的使用壽命。

繼續(xù)往上,來到系統(tǒng)層面,OceanStor Dorado V3提供了系統(tǒng)IO優(yōu)先級調度,根據(jù)應用性質給予IO優(yōu)先級別標識,比如,主機讀請求的優(yōu)先級高于Flash Cache刷盤請求;Flash Cache刷盤寫請求優(yōu)先級高于異步復制的后臺拷貝IO。這些IO優(yōu)先級隨著讀寫請求一起發(fā)給SSD,SSD控制芯片接收到IO時,根據(jù)IO的優(yōu)先級標識,優(yōu)先處理高優(yōu)先級IO。如此一來,OceanStor Dorado V3就可以進一步針對應用提供性能保障。

就技術而言,SSD盤可以提供μs級別的時延,到全閃存陣列,最好也只是OceanStor Dorado V3的0.5ms。其中因素,除了以上列舉因素之外,存儲網(wǎng)絡、協(xié)議(如SCSI、NVMe)帶來的時延都是重要原因,要求進行系統(tǒng)級別的控制。

目前,OceanStor Dorado V3采用了基于華為自主知識產(chǎn)權存儲協(xié)議處理芯片的SmartIO卡,一來支持融合組網(wǎng),在10GE或8/16Gb FC組網(wǎng)下只需要更換光模塊部件,無需更換卡件,減少1/3布線和75%接口卡,從而降低客戶初始投資成本。二來,通過硬件級RDMA(Remote Direct Memory Access,遠程直接數(shù)據(jù)存取)支持,提高系統(tǒng)的整體效率;此外,其內嵌QoS流控和TCP擁塞算法技術,在客戶復雜組網(wǎng)場景下,可提升65%~400%的廣域網(wǎng)性能。如此,這些設計都是OceanStor Dorado V3低時延特性的有力保障。

處理數(shù)據(jù)靜默故障,打造極致可靠性

企業(yè)級應用要求全閃存陣列具有極致性能的同時,對于系統(tǒng)的可靠性也提出了極高的要求。就全閃存陣列而言,很多廠商將注意力集中在磨損均衡、RAID保護、雙活和寫懲罰/寫放大的問題上,對此,OceanStor Dorado V3提供陣列級別的雙活等解決方案,但他們對于可靠性的追求并沒有停留在此,而是將目光著眼在數(shù)據(jù)靜默等極致的可靠性追求。

所謂靜默數(shù)據(jù)破壞(Silent Data Corruption)是指數(shù)據(jù)在讀/寫、落盤和傳輸處理過程中,數(shù)據(jù)出現(xiàn)了錯誤,但是錯誤沒有立即檢測出來。對于業(yè)務來說,靜默數(shù)據(jù)的威脅性甚至超過系統(tǒng)故障,因為靜默數(shù)據(jù)難以察覺,危害巨大。靜默數(shù)據(jù)破壞成為一個全球共識的問題,因此2003年信息技術標準國際委員會的“T10小組”提出一個解決方案,即DIF?(Data Integrity Field),數(shù)據(jù)完整性區(qū)域,對外也叫PI?(Protection Information,數(shù)據(jù)保護信息)。T10 PI標準是在ANSI T10 SCSI協(xié)議中定義的一種數(shù)據(jù)完整性校驗方法,其核心原理是數(shù)據(jù)摘要的思想,在數(shù)據(jù)剛生成的時候根據(jù)數(shù)據(jù)內容計算出摘要信息,插入DIF字段。在后續(xù)數(shù)據(jù)流過的關鍵通道上設置校驗點,從而知道數(shù)據(jù)發(fā)生了錯誤。

但DIF只定義了從IO控制器到存儲之間的鏈路保護,沒有涉及主機操作系統(tǒng)以及應用層的保護。為此Oracle基于業(yè)務對數(shù)據(jù)靜默損壞防護的需求,將DIF作為Oracle Linux OS和Oracle中的數(shù)據(jù)保護,稱之為DIX(Data Integrity Extensions)。目前,OceanStor Dorado V3提供全路徑數(shù)據(jù)保護方案,其中包括DIX、陣列級/硬盤級/芯片級DIF,確保數(shù)據(jù)存儲、處理和應用的高可靠性,從而為全閃存陣列高可靠性樹立了新的標桿。

全路徑數(shù)據(jù)保護方案

但DIF也不是“包治百病”,如第一次寫對,第二次寫錯位置,DIF不一定能檢測出來,為此,OceanStor Dorado V3提供了父子校驗等應對的方案,將數(shù)據(jù)DIF的CRC校驗信息在其元數(shù)據(jù)節(jié)點中保存一份,數(shù)據(jù)讀取時不僅要對數(shù)據(jù)做DIF校驗,還要和其元數(shù)據(jù)節(jié)點中的CRC做校驗,以及分條一致性檢查功能,如此可以有效避免數(shù)據(jù)錯誤,及時識別并修復。

小結

對于一個全閃存陣列而言,應該說性能、可靠性這些都是基本功。廠商之間的比拼,其實就是這些細節(jié)比拼。除了本文所列舉的內容之外,還有很多需要關注的,例如大盤時代高效的元數(shù)據(jù)緩存機制、NVMe帶來的挑戰(zhàn)和應對等,這些都需要全閃存陣列能夠有效應對,在殘酷的商業(yè)戰(zhàn)爭中,幫助贏得業(yè)務增長,成就一番宏圖偉業(yè)。

更多的產(chǎn)品信息可以在華為官方網(wǎng)站上獲取有關OceanStor Dorado V3產(chǎn)品信息:?http://e.huawei.com/topic/dorado-cn/index.html

華為將于2017年9月5-7日在上海舉行全聯(lián)接大會2017,屆時將會對華為全閃存做進一步的解讀,敬請期待!有關華為全聯(lián)接大會2017的資訊,請訪問http://www.huawei.com/cn/events/huaweiconnect2017/?ic_medium=hwdc&ic_source=corp_banner1_hc&source=EEBGHQ179Q20W。

分享到

songjy

相關推薦