3D NAND:預(yù)期中的突破
GB/成本,仍是橫亙SSD面前的堅(jiān)冰,從3D NAND到TLC,甚至QLC都是希望解決成本和容量的問題,市場的拐點(diǎn)會(huì)出現(xiàn)嗎?
宋家雨:從英特爾角度,如何看待SSD未來市場發(fā)展?
倪錦峰:英特爾7年前開始涉足SSD并取得了長足發(fā)展,我認(rèn)為SSD替換HDD趨勢不可改變。從技術(shù)層面,像3D NAND技術(shù)可以把SSD容量做得更大,成本更低,因此未來幾年SSD還會(huì)呈現(xiàn)爆發(fā)性增長。從介質(zhì)層面,現(xiàn)在都在討論關(guān)注NAND,同時(shí)大家也看到英特爾和美光合作3D Xpoint新存儲(chǔ)介質(zhì)技術(shù),相信在今后幾年還會(huì)有新的NVM技術(shù)出來,促使SSD市場有更大擴(kuò)展。從應(yīng)用層面,SSD在筆記本、臺(tái)式機(jī)等消費(fèi)類產(chǎn)品市場得到普及,在企業(yè)級(jí)市場應(yīng)用也得到廣泛部署,如CDN、數(shù)據(jù)庫、云計(jì)算等,雙十一網(wǎng)購狂歡背后也有SSD技術(shù)提供支撐。
宋家雨:相比傳統(tǒng)磁盤市場,SSD占比還不算太高,3D NAND會(huì)改變這種市場格局,給閃存帶來突破性進(jìn)展嗎?
倪錦峰:一直以來英特爾在和行業(yè)客戶一起分享數(shù)據(jù)分層的技術(shù),也就是把數(shù)據(jù)分為:熱數(shù)據(jù)、溫?cái)?shù)據(jù)和冷數(shù)據(jù)。以往SSD更多作為熱數(shù)據(jù)存儲(chǔ)來使用,如Cache(緩存)等,但隨著SSD 每GB成本不斷下降同時(shí)容量不斷增大,它跟HDD差距會(huì)越來越小,這就導(dǎo)致在很多更大規(guī)模溫?cái)?shù)據(jù)使用上,會(huì)更多采用SSD。按照我們的判斷, 2017年~2018年前后,會(huì)有SSD在溫?cái)?shù)據(jù)加速部署。
宋家雨:今年3D NAND會(huì)在企業(yè)級(jí)市場上取得一些進(jìn)展嗎?
倪錦峰:3D NAND在消費(fèi)類和企業(yè)級(jí)市場都有長足進(jìn)展,以前三星較早推出3D NAND技術(shù),英特爾和美光也有3D NAND技術(shù),相應(yīng)的友商,如閃迪也有3D NAND技術(shù)。預(yù)計(jì)2016年,3D NAND會(huì)市場普及,2016年底前后,應(yīng)該可以占到SSD市場的50%。
宋家雨:3D和TLC技術(shù),哪個(gè)會(huì)發(fā)展更快一些?
倪錦峰:3D和TLC是一個(gè)并行過程。2D向3D切換,其制程技術(shù)是向回走的,這就給我們更多機(jī)會(huì)發(fā)展類似TLC的技術(shù),由于支撐工藝往回走,使用TLC所遭遇的可靠性方面的挑戰(zhàn)就沒有那么多。所以,3D技術(shù)有利于TLC技術(shù)的應(yīng)用。未來3D TLC也會(huì)得到較快發(fā)展。
陣列還是卡,這是一個(gè)問題?
閃存是未來發(fā)展趨勢,對此毫無爭議?但閃存應(yīng)用主體形式是什么?卡還是陣列?全閃還是混閃,這是一個(gè)問題。
宋家雨:未來閃存應(yīng)用的主要模式,是全閃存陣列、混合陣列、卡還是分布式軟件定義存儲(chǔ)?誰會(huì)成為主流呢?
倪錦峰:從現(xiàn)有企業(yè)級(jí)部署情況看,SSD不管是PCIe閃存卡,還是SATA SSD盤,更多還是x86存儲(chǔ)替代傳統(tǒng)磁盤應(yīng)用。當(dāng)然,市場也看可以看到全閃存陣列方案出來,在我們看來,全閃存陣列和閃存盤、閃存卡還是有很多區(qū)別的,全閃存陣列提供了很多方案,如HA、在線重復(fù)數(shù)據(jù)刪除、以及相應(yīng)數(shù)據(jù)故障處理等,主要基于企業(yè)級(jí)客戶的需求。
我認(rèn)為SSD結(jié)合x86服務(wù)器的應(yīng)用方式會(huì)有更大發(fā)展,閃存陣列會(huì)在一段時(shí)間內(nèi)會(huì)有一部分市場,全閃存陣列現(xiàn)階段成本偏高,容量相對偏小,更多會(huì)應(yīng)用在關(guān)鍵業(yè)務(wù)或者對于性能有更高需求的場景。
宋家雨:所以基于這種情況,很多廠商會(huì)提出混合產(chǎn)品陣列的思路,對此您怎么看?
倪錦峰:對,這方面肯定會(huì)更好一些,HDD跟SSD能夠有個(gè)匹配的過程,畢竟SSD和HDD之間價(jià)差也好,或者性價(jià)比也好,在慢慢接近的過程中。
SATA SSD什么時(shí)候會(huì)被NVMe終結(jié)?
SATA,HDD的遺留技術(shù),并不能釋放SSD的潛能。NVMe 專為PCIe SSD而設(shè)計(jì),是SATA名副其實(shí)的終結(jié)者。關(guān)鍵在于,替代會(huì)在什么時(shí)候發(fā)生?
宋家雨:NVMe SSD什么時(shí)候可以替代SATA SSD, 請介紹一下NVMe最新進(jìn)展?
倪錦峰:我這邊借這個(gè)機(jī)會(huì),糾正一個(gè)普遍認(rèn)識(shí)上的誤區(qū):NVMe只是一種協(xié)議,像以前PCIe卡對應(yīng)的AHCI協(xié)議。NVMe是專門針對SSD設(shè)計(jì)的協(xié)議?,F(xiàn)有很多人看,PCIe SSD有兩種封裝的形式:一種是插卡形成,被稱為PCIe卡;而另外一種2.5英寸盤的形式,被稱為NVMe盤。這個(gè)理解是不正確的,因?yàn)檫@只是物理形式不同,以英特爾P3600、P3700和P3500,它們都有兩種外型:一種是2.5英寸盤的形式,標(biāo)準(zhǔn)名稱是U.2,一種是插卡形式,也即我們常說的PCIe卡,或者add-in-card,但它們的協(xié)議都是NVMe,所借這個(gè)機(jī)會(huì)糾正一下。
NVMe對PCIe來說非常重要,專門為PCIe SSD設(shè)計(jì),因它能夠極大降低協(xié)議轉(zhuǎn)換(SATA與PCIe之間)和協(xié)議本身(NVMe vs. AHCI)導(dǎo)致的時(shí)延。大家通常比較關(guān)注IOPS性能,但其實(shí)除此之外還應(yīng)該關(guān)注時(shí)延,這是NVMe能帶給大家的一種特別優(yōu)勢。最近,英特爾、美光、三星等主流廠商都在做NVMe合作開發(fā)工作,取得很大的進(jìn)步。如果說2015年是NVMe初級(jí)普及的過程,那么2016年,NVMe上量會(huì)來得非常快。
英特爾在2014年推出NVMe產(chǎn)品,但真正上量相對慢一些,插卡用的比較多一些,盤的推廣比較慢。2.5英寸NVMe盤,所采用的接口是SFF 8639,正式的名字是U.2,這個(gè)接口需要特定背板支持?,F(xiàn)有很多服務(wù)器廠商,如聯(lián)想,都支持2.5英寸PCIe/NVMe盤,但銷量還不是太大。從英特爾下一代平臺(tái)開始,才會(huì)大規(guī)模的普及。另外,價(jià)格上NVMe SSD和SATA SSD還有一定的差距,目前整個(gè)行業(yè)都在努力降低這個(gè)價(jià)差。
從用戶實(shí)際使用習(xí)慣看,SATA用戶使用的比較習(xí)慣了,切換到NVMe PCIe盤,用戶一時(shí)可能沒有辦法發(fā)揮新的能力。例如技術(shù)上,NVMe盤相對于SATA盤可以帶來5倍性能提升,但實(shí)際應(yīng)用所能看到到,可能只有1倍性能甚至更少,如此每GB成本就更高,對用戶成本壓力就更大一些。
在生態(tài)環(huán)境方面,2.5英寸NVMe盤還不是那么的完善,預(yù)計(jì)2016年會(huì)有極大完善,我們判斷差不多在2017年中期左右,NVMe能夠占到出貨量的50%。
宋家雨:生態(tài)環(huán)境方面,NVMe推動(dòng)面臨怎樣的挑戰(zhàn)?
倪錦峰:軟件方面,最新版本的操作系統(tǒng)已經(jīng)廣泛支持NVMe,但是很多用戶,特別是互聯(lián)網(wǎng)客戶用很多定制化系統(tǒng),有些版本還比較老,這就面臨升級(jí)的問題。企業(yè)級(jí)客戶同樣面臨類似的問題,他們成百上千應(yīng)用都構(gòu)建在老的系統(tǒng)上,做大規(guī)模內(nèi)核升級(jí),難度很大。
對于新的應(yīng)用需求,內(nèi)核方面的障礙會(huì)小一些,但也面臨應(yīng)用層面的障礙,以數(shù)據(jù)庫為例,有些用戶習(xí)慣了傳統(tǒng)的方案,用了新的NVMe之后,沒有辦法應(yīng)用RAID,因?yàn)閭鹘y(tǒng)的RAID方式對PCIe NVMe SSD不適用,那么就只有使用軟RAID的方式,對于有些人來說,觀念上還沒辦法接受。
我們現(xiàn)在還沒看到比較成熟支持NVMe的RAID卡,因?yàn)镽AID卡原來是針對磁盤設(shè)計(jì)的,上了SATA SSD之后,RAID卡會(huì)成為性能瓶頸。假設(shè)有一個(gè)RAID卡,也是ARM處理器為核心,后面拖了很多PCIe NVMe的盤,其性能根本沒有辦法滿足需求。你要用現(xiàn)有的方案,就只有用軟RAID,很多人概念里面還沒有辦法接受。
從用戶的角度看,從一種方案換到另外一種方案,用戶關(guān)注的是帶來哪些好處,性能提升多少,成本下降多少,也就是TCO(總體擁有成本)。對于某些應(yīng)用,既要性能又要容量,使用NVMe,如果性能發(fā)揮不出來,就很難說服用戶多花20%~30%的每GB成本。但對于數(shù)據(jù)庫應(yīng)用、CDN應(yīng)用等,NVMe效果明顯,這部分用戶都會(huì)選擇快速切換。
硬件方面,傳統(tǒng)2.5英寸SATA SSD支持熱插拔。對于PCIe/NVMe SSD來說U.2 SSD本身支持熱插拔,但還需要系統(tǒng)支持,這個(gè)工作沒那么容易。如今,很多廠商內(nèi)建了系統(tǒng)支持,但還有很多平臺(tái)工作沒有開始。另外,就是支持U.2需要一些比較特別的背板設(shè)計(jì)。另外,CPU PCIe lane的限制插的比較多就不夠了,肯定需要擴(kuò)展,如switch等,如今這種方案慢慢在變成熟,當(dāng)然這是有一個(gè)過程,另外成本也會(huì)從高往下走,這也是需要一點(diǎn)時(shí)間。所以我們覺得2016年生態(tài)環(huán)境更加成熟,會(huì)更加完善,上量也會(huì)非???。
宋家雨:其實(shí)在服務(wù)器方面來講,剛才提到8639,好像還是一個(gè)選件的東西,沒有成為一個(gè)標(biāo)準(zhǔn)配制的東西,您預(yù)計(jì)在今年,或者下半年的時(shí)候會(huì)不會(huì)出現(xiàn)一些服務(wù)器,某些服務(wù)器會(huì)打NVMe,或者8639作為他一個(gè)標(biāo)準(zhǔn)的對外借盤,全部替代SATA?
倪錦峰:從技術(shù)導(dǎo)入來說,中國相對于一些發(fā)達(dá)國家還是稍微慢一些。差不多滯后6~12個(gè)月,但是騰訊、阿里、百度等互聯(lián)網(wǎng)企業(yè)技術(shù)導(dǎo)入非???,接近美國用戶。我們也覺得從去年開始到今年,中國很多互聯(lián)網(wǎng)公司這個(gè)方面進(jìn)展會(huì)比較快一些,但是中國其他行業(yè),像金融、電信等,相對來說稍微要慢一些,因?yàn)樗麄兏嘁蕾囉谡麄€(gè)行業(yè)的生態(tài)系統(tǒng)。
大部分客戶都比較中意PCIe SSD盤 (U.2) ,而不是卡,因?yàn)橥瑯有阅?,同樣質(zhì)量可靠性,價(jià)格也是一樣的,他更加愿意用盤,可以支持熱插拔等等。此外互聯(lián)網(wǎng)生態(tài)系統(tǒng),自己做很多工作,比如內(nèi)核升級(jí)、應(yīng)用優(yōu)化,這還要需要一點(diǎn)時(shí)間。大的生態(tài)系統(tǒng)方面,OEM/ODM的支持、背板成本下降層面還是需要一點(diǎn)時(shí)間的。所以我覺得互聯(lián)網(wǎng)會(huì)走的比較快一些,其他行業(yè)相對來說比較慢一些。
宋家雨:從應(yīng)用軟件角度來講,Oracle支持NVMe的數(shù)據(jù)庫版本還沒有發(fā)布,開源軟件方面的情況是怎么樣?
倪錦峰:我們舉個(gè)例子,比如我們聊到SDS(軟件定義存儲(chǔ)),我們覺得Ceph還是很有前景的,當(dāng)然Ceph還不是那么的成熟,但在電信、金融,甚至某些互聯(lián)網(wǎng)公司,開始使用現(xiàn)有Ceph方案或者基于Ceph進(jìn)行方案開發(fā),做很多二次開發(fā)等等。其中,SATA盤,以及PCIe 卡,或者PCIe SSD盤應(yīng)用還是比較多。
可以說,SDS如果離開SSD,將沒有任何意義。Ceph原本就是比較開放系統(tǒng),因此可以更快擁抱一些新的技術(shù),英特爾努力幫助Ceph社區(qū),更好使用PCIe NVMe性能,從而加快了NVMe SSD盤的使用和導(dǎo)入。
宋家雨:除了性能以外,SSD的可靠性、穩(wěn)定性也是用戶的關(guān)注的話題,這方面英特爾有哪些優(yōu)勢?
倪錦峰:當(dāng)然說到質(zhì)量可靠性,失效率通常是用戶關(guān)注的指標(biāo)。英特爾在質(zhì)量、可靠、性方面一直以來非常重視,有很多投入。從產(chǎn)品設(shè)計(jì)層面,比如斷電保護(hù)、端到端數(shù)據(jù)保護(hù)等;產(chǎn)品制造方面,對于工藝的監(jiān)控;從產(chǎn)品驗(yàn)證方面,英特爾有龐大的認(rèn)證實(shí)驗(yàn)室,英特爾SSD盤需要經(jīng)過5000多項(xiàng)不同類型測試,從不同溫度,不同負(fù)載,不同服務(wù)器、背板、軟件等兼容性測試,驗(yàn)證的內(nèi)容非常多,確保我們的盤有更好適應(yīng)性,降低失效率。很多時(shí)候客戶看到失效,并不是SSD盤的質(zhì)量問題,更多的問題來自SSD和HBA卡、RAID卡、軟件之間的兼容性,這會(huì)導(dǎo)致很多問題。
除了產(chǎn)品質(zhì)量之外,SSD服務(wù)質(zhì)量也需要格外關(guān)注,比如性能的抖動(dòng),這對實(shí)際應(yīng)用的影響是很大的。服務(wù)質(zhì)量的穩(wěn)定性,這是英特爾產(chǎn)品的強(qiáng)項(xiàng),其性能持續(xù)性或者說性能一致性可以達(dá)到90%。從可靠性的角度,借這個(gè)機(jī)會(huì),需要提醒用戶關(guān)注靜默錯(cuò)誤。通常我們并不擔(dān)心SSD壞塊的問題,如果程序發(fā)一個(gè)讀命令,如果SSD出現(xiàn)壞塊,出現(xiàn)讀錯(cuò)誤或者沒法讀出數(shù)據(jù),這并不會(huì)對客戶應(yīng)用造成實(shí)際問題。所謂靜默錯(cuò)誤是,以所謂正確的方式,返回錯(cuò)誤的數(shù)據(jù),SSD或者系統(tǒng)本身缺一無所知,這才是最為致命的。
未來的3D XPoint
圍繞著3D XPoint有太多的關(guān)注,3D XPoint與NAND可以和平共處嗎?
宋家雨:未來3D Xpoint和閃存的關(guān)系?
倪錦峰:3D NAND和3D XPoint技術(shù)是完全不同的技術(shù)。3D NAND其實(shí)很簡單,以前2G的結(jié)構(gòu),平面的變成3D的,疊加的層數(shù)越來越高,從32、48、64,有可能疊加到128,一直往上疊。所有這些都是為了把容量做大,成本更低。
3D Xpoint是一種全新的介質(zhì),可以做成PCIe SSD同樣基于NVMe協(xié)議,也可以做成DIMM接口形式。圍繞3D Xpoint,英特爾會(huì)開發(fā)一系列產(chǎn)品,比如DIMM、PCIe接口設(shè)備。3D Xpoint這塊更靠近疊加DDR(內(nèi)存)會(huì)向這個(gè)方向走。我們說3D XPoint不會(huì)替代NAND, 3D XPoint壽命是NAND的1000倍甚至更高一些,性能也是1000倍,但它的容量要比NAND小很多,雖然是DDR容量的10倍,甚至更多一些,但跟NAND容量還有很大差距。另外成本跟NAND也有蠻大差距,當(dāng)然其所能帶來的用戶體驗(yàn)也會(huì)在不同的量級(jí)3D XPoint給我們更多機(jī)會(huì),能夠使得我們現(xiàn)有NAND和DDR之間,加了一層,能夠發(fā)揮承上啟下的作用。
宋家雨:英特爾如何看待軟件定義存儲(chǔ)的發(fā)展?英特爾會(huì)涉及做相關(guān)的軟件嗎?
倪錦峰:軟件定義存儲(chǔ)是未來的趨勢,英特爾非??春眠@一塊,這種趨勢沒有辦法阻擋的,我們積極擁抱這樣的變化。我們也投入很多人力、物力去支持相關(guān)方案的開發(fā),從傳統(tǒng)的存儲(chǔ)方式,轉(zhuǎn)到橫向擴(kuò)展的軟件定義存儲(chǔ),這需要一個(gè)過程。
舉個(gè)例子,比如Ceph,是我們現(xiàn)在比較關(guān)注一個(gè)方向,但在HA等很多問題上,以及運(yùn)維服務(wù)上,很多問題需要考慮,英特爾比較注重和生態(tài)系統(tǒng)伙伴一起合作開發(fā)軟件定義存儲(chǔ)解決方案,暫時(shí)還沒有推出Intel品牌的軟件定義存儲(chǔ)方案的計(jì)劃。
宋家雨:我們時(shí)間過的很快,今天特別高興能夠跟倪錦峰先生就閃存未來發(fā)展進(jìn)行交流,希望我們有更多機(jī)會(huì),能夠跟我們DOIT的網(wǎng)友大家一起探討技術(shù)性的話題,非常感謝倪錦峰先生。
倪錦峰:也謝謝各位。