今天來簡(jiǎn)單解讀榜首的含金量。
首先,SPC-1算是一個(gè)存儲(chǔ)系統(tǒng)“考試”,主要考察存儲(chǔ)設(shè)備在大量隨機(jī)數(shù)據(jù)請(qǐng)求下的性能,比如能處理多少數(shù)據(jù)(吞吐量),每秒能完成多少次讀寫(IOPS)。這些對(duì)企業(yè)級(jí)數(shù)據(jù)庫、郵件系統(tǒng)、在線交易等業(yè)務(wù)而言十分重要。
測(cè)試分三個(gè)階段,第一階段8小時(shí)的高強(qiáng)度耐力測(cè)試,F(xiàn)lashNexus要一直保持3000萬讀寫(IOPS)的高性能,不能掉速。
第二階段是坡度壓力測(cè)試,先從100%負(fù)載開始,逐步降低到10%負(fù)載,再逐漸升回100%負(fù)載。每個(gè)階段大概跑15分鐘。檢測(cè)系統(tǒng)在不同壓力下的穩(wěn)定性,看當(dāng)業(yè)務(wù)量突然減少或增加時(shí),它還能不能穩(wěn)定運(yùn)行,也就是看時(shí)延的穩(wěn)定性。
曙光存儲(chǔ)的集中式全閃FlashNexus是超低的0.202ms。毫秒概念我們普通人理解就是很快,快到什么程度估計(jì)也沒人想過。我給大家想過了,日常生活中我們應(yīng)該聽到過這樣幾個(gè)表示速度的名詞——?jiǎng)x那,瞬間,彈指。佛門用來劃分時(shí)間,其中二十剎那為一瞬,二十瞬為一彈指,一剎那是最短的時(shí)間,約為18毫秒,也就是說這個(gè)0.202毫秒延遲比“一剎那”還要快近90倍。
第三階段是可重復(fù)測(cè)試,就是讓存儲(chǔ)系統(tǒng)瞬間從休息狀態(tài)(10%負(fù)載),直接沖到極限(100%負(fù)載),再回到休息狀態(tài),多次反復(fù)。這個(gè)考驗(yàn)系統(tǒng)在突發(fā)流量下的反應(yīng)速度,比如確保我們?cè)陔p11買買買的時(shí)候不會(huì)宕機(jī)。
除此之外,還有一個(gè)極端情況下的可靠性測(cè)試,突然插拔電源之后重新開機(jī)看數(shù)據(jù)有沒有損壞。現(xiàn)實(shí)中,比如銀行交易系統(tǒng)如果突然停電,數(shù)據(jù)必須保證不丟失。
SPC-1測(cè)試第一,也就是說用于曙光存儲(chǔ)系統(tǒng)適用于銀行、航空、互聯(lián)網(wǎng)、醫(yī)療等關(guān)鍵業(yè)務(wù)場(chǎng)景。比如時(shí)延,銀行的實(shí)時(shí)交易數(shù)據(jù)庫(RTDB) 需要存儲(chǔ)系統(tǒng)能快速處理交易數(shù)據(jù),否則轉(zhuǎn)賬可能會(huì)變慢甚至失敗。還有聯(lián)機(jī)事務(wù)處理(OLTP) 業(yè)務(wù),比如電商、計(jì)費(fèi)系統(tǒng),每天都有大量訂單數(shù)據(jù),存儲(chǔ)系統(tǒng)必須支持高并發(fā)訪問。
技術(shù)方面是怎么實(shí)現(xiàn)的?
簡(jiǎn)單分享兩個(gè)我關(guān)注的FlashNexus采用的技術(shù)——NUMA(Non-Uniform Memory Access,非一致性內(nèi)存訪問)技術(shù),是一種多處理器系統(tǒng)的內(nèi)存組織方式。
基于NUMA技術(shù),單服務(wù)器的CPU核數(shù)、內(nèi)存容量、設(shè)備規(guī)模都有了大幅提升;但CPU核/硬件跨NUMA訪問內(nèi)存,帶寬低時(shí)延高,導(dǎo)致硬件性能不能隨規(guī)模而線性增長(zhǎng),甚至多NUMA總性能不及單NUMA性能。
NUMA親和,是實(shí)現(xiàn)硬件性能隨規(guī)模線性增長(zhǎng)的基本方法,追求在本NUMA訪問內(nèi)存,避免跨NUMA訪問內(nèi)存。若CPU核、設(shè)備、內(nèi)存之間僅限于NUMA內(nèi)訪問,不同NUMA間分而自治,則硬件性能可線性增長(zhǎng)。
FlashNexus中,物理上,將CPU核、內(nèi)存、設(shè)備按NUMA劃分微控制器;邏輯上,將數(shù)據(jù)空間劃分邏輯子空間,并將邏輯子空間映射到微控制器。私有多路徑實(shí)現(xiàn)始發(fā)選路,直達(dá)數(shù)據(jù)歸屬微控制器,實(shí)現(xiàn)系統(tǒng)性能隨規(guī)模線性增長(zhǎng)。
它的優(yōu)勢(shì)是處理器訪問本地內(nèi)存的速度更快,擴(kuò)展性更好,業(yè)務(wù)拓展之后直接加處理器和內(nèi)存就好了,還有就是資源分配上不會(huì)有偏向性,這樣整體性能也得到了提高。
應(yīng)用場(chǎng)景上,比如天氣預(yù)報(bào),需要處理海量數(shù)據(jù),NUMA能讓數(shù)據(jù)處理更快。還可以提高數(shù)據(jù)庫查詢速度,讓數(shù)據(jù)讀取更高效。讓每個(gè)虛擬機(jī)都能高效運(yùn)行,資源利用更合理,以此降低總功耗。當(dāng)然這么多處理器和內(nèi)存能管好也是技術(shù)活兒。
XIO是一種優(yōu)化數(shù)據(jù)傳輸技術(shù),能給數(shù)據(jù)開設(shè)“快速通道”,把數(shù)據(jù)分成很多小塊,每塊都在自己的“通道”里快速傳輸,避免數(shù)據(jù)在忙亂的時(shí)候形成“交通”擁堵。
還有就是用NVMe和RDMA協(xié)議簡(jiǎn)化流程,減少數(shù)據(jù)傳輸?shù)摹笆掷m(xù)”。采用“QP+輪詢”的機(jī)制,定時(shí)檢查各個(gè)隊(duì)列的狀態(tài)看有沒有問題及時(shí)解決,減少開銷,這樣也能提高系統(tǒng)的IOPS性能。
簡(jiǎn)單理解就是在馮諾依曼體系中,計(jì)算和存儲(chǔ)是分開的,想要輸出結(jié)果,就要三步走——存儲(chǔ),計(jì)算,還有兩者之間的通信,也就是數(shù)據(jù)搬運(yùn)。而計(jì)算本身使用的功耗實(shí)際并不高,基本都花在了讀取上,讓存儲(chǔ)離得更近,讓協(xié)議更薄就是提速基本法,足以看出曙光存儲(chǔ)在很多細(xì)節(jié)上都花了心思。
AI時(shí)代下對(duì)存儲(chǔ)需求的判斷
從前,業(yè)務(wù)工作負(fù)載主要分兩種:一種是穩(wěn)態(tài)業(yè)務(wù),就像跑馬拉松,數(shù)據(jù)量不大,變化慢,但需要快速響應(yīng);另一種是敏態(tài)業(yè)務(wù),比如互聯(lián)網(wǎng)業(yè)務(wù),就像短跑,數(shù)據(jù)量變化大,增長(zhǎng)快,但對(duì)單次響應(yīng)的要求沒那么高。
過去穩(wěn)態(tài)業(yè)務(wù)用集中式存儲(chǔ),穩(wěn)定、低延遲;敏態(tài)業(yè)務(wù)用分布式存儲(chǔ)或云存儲(chǔ),擴(kuò)展性強(qiáng)。
現(xiàn)在AI時(shí)代來了,AI業(yè)務(wù)的訓(xùn)練階段像敏態(tài)業(yè)務(wù),數(shù)據(jù)量大,需要高吞吐和高IOPS結(jié)合;推理階段則相反,數(shù)據(jù)量小,對(duì)響應(yīng)速度(IOPS)要求極高。這就要求一套存儲(chǔ)系統(tǒng)同時(shí)滿足穩(wěn)態(tài)和敏態(tài)的需求。
并且AI時(shí)代算力需求的暴增也得存儲(chǔ)設(shè)施做好配套工作,才能讓AI的投資回報(bào)更高。因此對(duì)性能的要求從“夠用就行”變成了“越快越好”。也是基于這樣的判斷,曙光存儲(chǔ)推出FlashNexus從極致性能和智能感知(AI性能調(diào)度和異常檢測(cè)的引擎)上適配AI時(shí)代。
當(dāng)然,曙光存儲(chǔ)提供的32控,能管理400塊硬盤還不是最高配,其擴(kuò)展還可以是64和128個(gè)控制器,在這種擴(kuò)展能力下,每個(gè)控制器平均管理的硬盤不到100塊,當(dāng)擴(kuò)展到百控級(jí)別時(shí),系統(tǒng)可實(shí)現(xiàn)億級(jí)IOPS的單集群性能輸出,能夠滿足人工智能、大數(shù)據(jù)分析和高性能計(jì)算等場(chǎng)景對(duì)海量數(shù)據(jù)處理和高并發(fā)I/O操作的需求。