英特爾(中國(guó))首席存儲(chǔ)架構(gòu)師宮興斌

從SLC,到MLC到TLC到現(xiàn)在的QLC,不斷創(chuàng)新的NAND存儲(chǔ)技術(shù)讓SSD容量越來(lái)越高,但QLC本身有很多問題,將QLC從實(shí)驗(yàn)室拿到實(shí)際應(yīng)用中本身很有挑戰(zhàn)性。

Intel獨(dú)有的基于3D Xpoint的Optane有僅次于DRAM的性能,耐久性、穩(wěn)定性、延遲等表現(xiàn)也遠(yuǎn)超普通3D NAND SSD,如此特性與3D QLC NAND SSD搭配互補(bǔ)竟有神奇的變化,全新的方案在將存儲(chǔ)各項(xiàng)性能大大提升的同時(shí),而且不給用戶帶來(lái)額外的成本負(fù)擔(dān)。如此加量不加價(jià)的方案勢(shì)必在數(shù)據(jù)中心掀起一股波瀾。

以下內(nèi)容由筆者根據(jù)現(xiàn)場(chǎng)速記整理精簡(jiǎn)校對(duì),供讀者參考學(xué)習(xí),如發(fā)現(xiàn)有遺漏錯(cuò)誤,還請(qǐng)?jiān)谖哪┝粞耘u(píng)指正:

宮興斌:很高興在這里跟大家分享我們看到的存儲(chǔ)行業(yè)最新的一些技術(shù),希望透過(guò)這些產(chǎn)品方案能幫助大家看到未來(lái)數(shù)據(jù)中心的變化趨勢(shì)。

從SLC到MLC到TLC,現(xiàn)在終于到了QLC,雖然QLC有一些缺點(diǎn),但我們還是對(duì)它充滿了期待,因?yàn)镼LC能大大降低成本,如今的數(shù)據(jù)中心成本仍舊非常重要,如何降低成本對(duì)用戶很重要。

我們正處于數(shù)據(jù)爆炸的時(shí)代,數(shù)據(jù)分析非常慢,我們從容量、性能、成本三個(gè)角度看存儲(chǔ),DARM性能是最好的,但容量受限,成本也太高,容量擴(kuò)展受限。NAND能夠提供大容量存儲(chǔ),比DARM要便宜的多,但性能比較差,HDD(磁盤)最便宜的介質(zhì),TCO是比較好,但性能更差一些。

想要從每天獲取的海量數(shù)據(jù)中提取一點(diǎn)有用的信息時(shí),當(dāng)前的整個(gè)架構(gòu)存在差距。

Intel關(guān)注兩種存儲(chǔ)技術(shù):

第一種,低成本、高密度的基于3D NAND的產(chǎn)品,解決數(shù)據(jù)中心容量型數(shù)據(jù)存儲(chǔ)問題。另外一種是傲騰高性能存儲(chǔ),主要用于數(shù)據(jù)中心熱點(diǎn)數(shù)據(jù)的存放。英特爾用3D NAND擠壓磁盤市場(chǎng),作為新的發(fā)展方向,未來(lái)基于QLC的Ruler容量會(huì)越來(lái)越大,外形上會(huì)推出短尺子的版本。

現(xiàn)在的數(shù)據(jù)中心對(duì)空間、功耗、制冷要求都很高,大家希望用1U的空間就能夠存放1個(gè)PB的數(shù)據(jù),這就是尺子的應(yīng)用場(chǎng)景。

Optane是一種全新的存儲(chǔ)介質(zhì),它跟之前的NAND很不一樣,NAND的讀寫方式和后臺(tái)垃圾回收需要很多操作。Optane的存儲(chǔ)介質(zhì)不存在垃圾回收操作,優(yōu)勢(shì)在于它的讀寫IO是均衡的,隨機(jī)讀和隨機(jī)寫都能夠做到一樣的IOPS。

從延時(shí)的角度看,Optane采用的介質(zhì)延時(shí)比較低,延時(shí)表現(xiàn)不在乎是隨機(jī)讀還是隨機(jī)寫,即使是在很嚴(yán)重的寫的情況下,讀延時(shí)依然很低,依然可以做到10個(gè)微秒左右。

Optane采用的介質(zhì)即使在很低的延時(shí)下依然有很高的QoS表現(xiàn),帶寬可以很高,使用壽命也很高。

使用任何一種新技術(shù)都需要做很多工作,當(dāng)我最開始做SSD的時(shí)候,很多用戶就問我拿到SSD是不是可以馬上提升性能,實(shí)際上還有很多工作需要去做。這里我們講有三步,第一步部署產(chǎn)品,第二個(gè)做優(yōu)化,第三個(gè)是進(jìn)化。

部署部分,我們先考慮本地存儲(chǔ)怎么做?我們可以基于Optane加上自己的Cache軟件或者SPDK來(lái)做本地優(yōu)化加速存儲(chǔ)。第二種,可以用Intel的內(nèi)存驅(qū)動(dòng)技術(shù)去做內(nèi)存的擴(kuò)展。第三個(gè),可以針對(duì)遠(yuǎn)端的存儲(chǔ),比如SAN存儲(chǔ)做本地的Cache,這種組合解決Optane性能好但容量有限的問題。

QLC隨機(jī)讀寫會(huì)存在一些問題,壽命也不如TLC,但順序讀可以彌補(bǔ)以上缺陷。高性能的Optane加上大容量的QLC NAND產(chǎn)品降低成本達(dá)到一個(gè)均衡狀態(tài)。

如圖可見,第一個(gè)圖可以看到所謂的響應(yīng)能力,這個(gè)圖在說(shuō),當(dāng)我們?cè)趯懙呢?fù)載越來(lái)越大情況下的延遲表現(xiàn),灰色曲線是英特爾基于NAND的產(chǎn)品,它會(huì)隨著寫的增大,平均讀的延時(shí)線性增加的,而且抖動(dòng)很大。橫軸藍(lán)線是Optane的延遲表現(xiàn),高負(fù)載下延時(shí)依然維持著一條水平線。

我們看一款產(chǎn)品的延時(shí),不是看純讀或者純寫下的表現(xiàn)。Optane現(xiàn)在可達(dá)到60個(gè)DWPD,非常適合做Cache。用戶只需要一塊375G的Optane就能夠做大容量存儲(chǔ)的Cache,無(wú)論性能還是壽命,都比用NAND做Cache好的多,效果和投資回報(bào)率都要好很多。

上圖中,我采用IMDT軟件將Optane當(dāng)內(nèi)存使用,可以替換一些昂貴的DRAM。

Spark是一個(gè)典型吃內(nèi)存的場(chǎng)景,Optane加上IMDT把原始內(nèi)存擴(kuò)大,盡量讓所有數(shù)據(jù)都放在擴(kuò)展內(nèi)存里面,這樣就減少了數(shù)據(jù)逐漸上層遷移的過(guò)程,這樣可以主機(jī)充分利用內(nèi)存,可以起更多線程,降低處理時(shí)間。從圖中可見,原來(lái)可能需要66分鐘的操作,現(xiàn)在只需要13分鐘,相對(duì)于之前的運(yùn)行時(shí)間縮短了5倍。

Intel除了在存儲(chǔ)硬件方面的積累,還有個(gè)強(qiáng)項(xiàng)在于可以做各種應(yīng)用的優(yōu)化,任何一個(gè)新的硬件技術(shù),沒有做優(yōu)化很難發(fā)揮性能,這種優(yōu)化無(wú)處不在。 ?????

下圖展示的是優(yōu)化帶來(lái)的好處,之前如果采用文件系統(tǒng)的Buffered ?I/O,基準(zhǔn)線可以看到橫軸,現(xiàn)在使用的EXT4的特性優(yōu)化,最高性能可以提升48%。

怎么去優(yōu)化呢?

Intel可以幫助大家,Intel提供了很多優(yōu)化工具,包括SPDK、SSM、PMDK,另外Intel也提供了很多在線實(shí)驗(yàn)環(huán)境,讓大家能夠真正地去感受。可以通過(guò)https://www.acceleratewithoptane.com/這個(gè)網(wǎng)站去驗(yàn)證Optane的產(chǎn)品性能。

Ruler第一代是由Intel來(lái)主導(dǎo)的,后續(xù)像國(guó)外的Facebook、谷歌、微軟都有這樣的需求,所以接下來(lái)出現(xiàn)一個(gè)新的接口edsff。早期的SSD有一些私有協(xié)議,當(dāng)NVMe出來(lái)以后,我意識(shí)到我們已經(jīng)進(jìn)入了NVMe時(shí)代,NVMe以生態(tài)為目標(biāo),各種OS都可以支持NVMe驅(qū)動(dòng),有健康的生態(tài)產(chǎn)品才會(huì)做好,用戶才會(huì)用的更好。

我非常同意QLC降低用戶使用成本的說(shuō)法,但需要找到適用的場(chǎng)景,哪些場(chǎng)景會(huì)比較適合QLC?

通常在溫?cái)?shù)據(jù)存儲(chǔ)下,都是TLC NAND和HDD搭配使用,TLC SSD用做緩存,這時(shí)候其實(shí)就可以把他們?nèi)紦Q成QLC的產(chǎn)品,通過(guò)這種換的方式可以大大緩解以前HDD訪問速度慢的問題,同時(shí)可以讓整體性能更加一致,會(huì)比之前的從TLC+HDD提升的更好。

Intel有兩種QLC的產(chǎn)品:一個(gè)是P4320,一個(gè)是P4326。

QLC Optane

這里有一個(gè)實(shí)際應(yīng)用案例。騰訊CDN應(yīng)用中,原來(lái)的緩存用的是3D TLC NAND,容量層用的是傳統(tǒng)的HDD。騰訊的CDN通過(guò)把TLC和HDD換成QLC的3D NAND產(chǎn)品,一方面性能得以提升,而且能降低使用成本。

靈活性方面,去年發(fā)布的處理器平臺(tái)對(duì)NVMe的支持會(huì)更好,解決了之前NVMe沒法做Raid的問題。但我們的應(yīng)用當(dāng)中會(huì)有很多臨時(shí)數(shù)據(jù)需要存儲(chǔ),存儲(chǔ)當(dāng)中會(huì)涉及一些分層,有一些需要做緩存的使用場(chǎng)景,這可以通過(guò)我們的P4800X去做。對(duì)于遠(yuǎn)端的存儲(chǔ),我們推薦采用QLC的3D NAND SSD。

下面vSAN的案例中,原來(lái)我會(huì)用Intel的P4610做Cache,用Intel SSD DC4510做容量存儲(chǔ),我現(xiàn)在Cache層用Optane,用QLC的D5-P4320做容量存儲(chǔ),它帶來(lái)的好處就是4倍的IOPS,降低了4倍的延時(shí)。新的組合當(dāng)中,整個(gè)TCO下降了10%。

我們看到,在一些應(yīng)用當(dāng)中,完全可以通過(guò)Optane+QLC的組合替換TLC加上磁盤的組合,有了Optane做Cache,還可以把一些小的IO做整理,降低寫的次數(shù),減少寫放大,提升QLC盤的使用壽命。

在Ceph的場(chǎng)景中,原來(lái)所有的存儲(chǔ)都是用四塊8TB的TLC SSD,現(xiàn)在采用四塊8TB的Intel QLC SSD,加上一塊750G的Optane P4800,會(huì)發(fā)生什么呢?首先是讀和寫的P99延時(shí)降低了50%,IOPS升了40%,Optane P4800用作cache,QLC NAND SSD用做容量存儲(chǔ),然而,兩種方案的成本非常相近的,成本相差2%左右。

最后我們看一下DRAM、Peristent memory和SSD對(duì)比。這三者對(duì)比,最主要在于能夠幫助大家在不同的應(yīng)用選擇合適的產(chǎn)品。從這張圖來(lái)看,如果原來(lái)我采用NAND產(chǎn)品,現(xiàn)在不做任何優(yōu)化,只換一個(gè)新的Optane產(chǎn)品,性能提升可能只有30%。

做一些軟件上的優(yōu)化,它的性能提升到2.5倍。如果采用Peristent memory去做優(yōu)化,這個(gè)性能提升可以達(dá)到9倍,也就是說(shuō),通過(guò)新的Optane技術(shù),能夠把很多應(yīng)用架構(gòu)重新改寫。

最后給大家看一下優(yōu)化相關(guān)的各種資源,這里大家都可以上網(wǎng)去找,包括SPDK、SSM、PMDK,你可以登陸這個(gè)網(wǎng)站熟悉Optane和一些軟件優(yōu)化相關(guān)信息。

今天我的分享就到這里,謝謝大家!

分享到

zhupb

相關(guān)推薦