陳小波:我大概是2012年去的英特爾,2012年第一次來到這個論壇。當時可以看到外面大部分是傳統(tǒng)的存儲廠商,現(xiàn)在大家再出去看,絕大部分外面的廠家變成了分布式存儲。給我最震撼的兩點,差不多在2010年的時候,當時我還在EMC。2010年ORACLE第一次宣布了軟件定義存儲和分布式存儲到來,2012年微軟就出來了,到2015年NUTANIX VSAN超融合的形態(tài)也出來了。這些所有軟件的形態(tài)要依賴于一個基本的硬件形態(tài),就是SSD閃存。傳統(tǒng)的介質(zhì)存儲設計,軟件和硬件的匹配,基本上已經(jīng)做到了相對的極限或極致,很難有人在這上面再超過他們。為什么現(xiàn)在有了這么多分布式存儲,有了這么多軟件定義存儲?就是因為有了閃存,給了軟件更大的想象空間。和傳統(tǒng)的機械硬盤相比,閃存這個東西,提供的性能,尤其是RANDOM性能是百倍級、千倍級的增長。應用對存儲的需求的第一瓶頸點,一般是在IOPS上,解決這個問題,才談得上下面新的瓶頸點CPU、內(nèi)存等等。
內(nèi)存技術的擴展趨勢
閃存、閃存發(fā)展出來的各種新的硬件技術,類似于內(nèi)功,軟件只是招式,招式再好,沒有內(nèi)功,也就是三歲小孩打太極拳,沒有任何用。如果說你有強勁的內(nèi)力,剩下的問題只是怎么樣用好的軟件,把內(nèi)力發(fā)揮出來,提供給上面的應用。
今天我講傲騰的持久內(nèi)存。大家可以看到,剛才講了傳統(tǒng)的機械硬盤、磁帶容量很大,現(xiàn)在機械硬盤最少是10TB,磁帶的容量更大,但是慢。1塊NVME的盤大概可以提供到,比如說傲騰55萬4KB的讀,和55萬的寫是一樣的性能。內(nèi)存肯定是比NVME的盤再快3個數(shù)量級,延遲更低,吞吐更大。在這兩個之間,傳統(tǒng)的內(nèi)存DD24,主屏越來越高。去年還在用2666的內(nèi)存,今年2999都不夠了,都得用到3200檔次的內(nèi)存上去,主屏越高,吞吐性能越快,在不斷地進步。這兩個之間有沒有一個用于更加持久化的,把更多的數(shù)據(jù)可以Load進內(nèi)存的,傳統(tǒng)的內(nèi)存增長也很快,但是所有物理的東西,在傳統(tǒng)架構(gòu)上增長都是有一定極限的,不管是性能的極限,還是容量的極限。
大概1993年,我買第一臺386的時候,第一次配了4兆的內(nèi)存,當時覺得好多了,快畢業(yè)的時候,1997年換了主板486,變成16兆B的內(nèi)存,那個時候覺得太大了,快2GB的硬盤,覺得不需要更大的了,可以存很多東西了。到現(xiàn)在只能當做一個古董放到書柜里。從內(nèi)存和硬盤的容量上講,人們對于美好生活的追求,總是無限的。我們要存很多東西,有視頻音頻。以前很多不存的東西,也會存下來,比如說以前工廠的一條生產(chǎn)線,需要靠工人師傅,或者是比較有經(jīng)驗的工程師判斷這批產(chǎn)品有什么問題,現(xiàn)在直接架上高清攝像頭拍照、錄象,根據(jù)抓出來的視頻文件或者圖片里面,用AI來算,可能這批生產(chǎn)有什么問題。能給制造業(yè)的業(yè)主,或者是工廠的所有者帶來極大的利益,提高了交貨時間。問題是拍的照、錄的像,以前是從來不存的東西,但是在新的計算的引領下,計算突破了,帶動著存儲和網(wǎng)絡跟著要突破。以前這些不存的,要把它存下來,存下來的時候,還是海量的數(shù)據(jù),都不是我們以前講的GB、TB,要奔向EB級。比如說國內(nèi)某個汽車廠家打算搞自動駕駛,一談就是50個PB,如果是10KB SATA盤存下來,當時算出來是18000塊機械硬盤,是一個很大的量。增長得很快,這屬于它的黃金時代,幾年就翻一番。大概兩年前最常用的還是8G左右的內(nèi)存,現(xiàn)在是16G,從今年開始,逐漸會進入32G。內(nèi)存容量越來越大,既是好事,也是麻煩事。
第二,這么大的內(nèi)存,從性能的角度講,以前對很多應用的認知,是需要更大的內(nèi)存,但實際上要跑滿一個CPU,或者跑出一個高分,大家可能認為內(nèi)存平淡無奇,就這么一根小條子,內(nèi)存的技術不停地發(fā)展,應用在追求更大的容量和帶寬。未來,16G、32G繼續(xù)發(fā)展之后,一個CPU要插滿這么多Channel才能保證容量的話有點難度,需要更新的技術解決這些問題,要保證數(shù)據(jù)在增長的時候,內(nèi)存要跟得上增長。
傲騰突破內(nèi)存瓶頸
以前的翻倍速度沒有這么快,但是數(shù)據(jù)在拼命增長,內(nèi)存一定要增長,很多情況下,這是核心瓶頸點。怎么辦?英特爾用OPTANE的技術,提供了PERSISTENT MEMORY,這個概念前年開始就比較火了。為了滿足更大的容量,英特爾緊跟潮流,推出了傲騰持久化內(nèi)存。第一個容量更大,內(nèi)存條大概16G、32G。不是說32G比16G翻一番,還略低,是更貴,64G也是。跟它的生產(chǎn)工藝有關,生產(chǎn)工藝沒有到的時候,當現(xiàn)在最適應的,或者說市場上最主流的,一定是它的生產(chǎn)線上,它的工藝決定了這是一個性價比最好的產(chǎn)品。如果要追求更大容量,沒有辦法,只能付更多的錢,不是根據(jù)容量翻上去了。但是OPTANE是不同于傳統(tǒng)的技術,不同于傳統(tǒng)的3D NAND,它的容量很大,128GB起配。容量不再是問題,并且高性能、高可靠,插在內(nèi)存條上,既可以作為內(nèi)存用,也可以作為磁盤用,或者是磁盤類型的內(nèi)存來用。
所謂內(nèi)存模式,插在內(nèi)存槽上,就可以把它當內(nèi)存來用,性能還不錯。第一,它還是要插傳統(tǒng)的DD24,不是原來的就不插了,插上之后,DD24在操作系統(tǒng)層面看不到這個內(nèi)存容量。大家就把這個東西當做內(nèi)存,插在服務器上,系統(tǒng)就看到了,可以直接訪問和使用,沒有任何問題。
第二,應用直接訪問模式,是業(yè)界真正的發(fā)展方向和追求的目標。很多應用中,如果應用持久化內(nèi)存,可以達到一些新的數(shù)據(jù)的安全級別和保證,可以保證數(shù)據(jù)還在,掉電不怕,下次開機數(shù)據(jù)還在,加載非常快。如果內(nèi)存都達到1.5TB級別,數(shù)據(jù)傳輸是非常繁忙的過程,追求一定的性能的。它插在內(nèi)存上,操作系統(tǒng)可以把它看成是盤,但是訪問不了它。應用可以很精確地定位,這個時候你看到的就是兩塊內(nèi)存,一塊是DD24的內(nèi)存,比如說有192G,是更快一點的內(nèi)存。另外是1.5T的傲騰數(shù)據(jù)中心級持久化內(nèi)存,是4塊內(nèi)存,這個時候可以決定哪些數(shù)據(jù)放在DD24,哪些數(shù)據(jù)放在傲騰,是可以由應用通過PMDK這樣的API去控制和定義的。
傲騰完整的模塊系統(tǒng):從理論上來看,控制器、芯片、信號的校驗,這些全部存在。最關鍵的,它是直接插在內(nèi)存條上。傲騰的盤是一樣的介質(zhì),同樣的介質(zhì)放在不同的數(shù)據(jù)總線上,CPU訪問的時間是不一樣的。接口的類型有時也是控制性能的要素之一。NVME的協(xié)議和接口打破了SATA的限制,OPTANE的接口和協(xié)議是走的內(nèi)存的通道,不需要再通過PCIe的通道轉(zhuǎn)過去,這就使得它的性能很好。
大家就記住兩點,它就是內(nèi)存,完全可以當做內(nèi)存用。同時,它也可以比內(nèi)存干更多的活。它可以當做一塊盤,也可以通過操作系統(tǒng)看是盤,但是應用部分,把它當成內(nèi)存。
持久性對硬件的影響
CPU是有緩沖的,內(nèi)存本質(zhì)上講是起到磁盤上海量數(shù)據(jù)和計算的CPU之間的一個中介和橋梁,緩存,臨時存放數(shù)據(jù)的空間,內(nèi)存不夠了怎么辦,把它重新刷回硬盤。有了持久內(nèi)存,通過采用PMDK API的方式,CPU可以識別很多數(shù)據(jù),決定它是在易失性DD24還是非易失性。近20年的磁盤的發(fā)展,容量越來越大,磁密度越來越高,單位時間內(nèi)轉(zhuǎn)過的磁密度提升了, 磁盤順序讀取的性能會提升,但RANDOM性能始終不會提升。大致是2005年左右做到了15000轉(zhuǎn)之后,已經(jīng)到物理極限。它的角速度是一樣的,線速度不一樣,15000轉(zhuǎn)的時候,一個磁盤最外延的線速度,已經(jīng)接近物理極限了,轉(zhuǎn)不動了,所以說15000轉(zhuǎn)出來之后,大概有10年的時間就沒有了。它將來還會發(fā)展,我相信將來會有16TB、20TB、40TB,一直到100TB都有可能。這個時候, 磁盤順序讀取的性能提升,7200轉(zhuǎn)決定了它的性能始終是在200 IOPS左右,因為前面加了64兆B的緩存,存儲廠家屏蔽了這個緩存。持久性內(nèi)存加入進去之后,傳統(tǒng)的文件系統(tǒng)要改造,工作量也很大。改造的時候,跳開傳統(tǒng)的限制,用持久性保證數(shù)據(jù)更快、更方便地被訪問,這就是持久性對硬件的影響,還有一個對軟件的影響,怎么樣更好地調(diào)動數(shù)據(jù)持久也不怕丟的理念。
內(nèi)存級別的介質(zhì)壽命
大家家最關心的,SSD有一個可插儲壽命的概念,OPTANE不怕這點,OPTANE這一點特別好,做成傲騰持久化內(nèi)存更好。我講到一個它和傳統(tǒng)的SSD技術上的小區(qū)別,傳統(tǒng)的SSD是用配置進行數(shù)據(jù)插儲,改一個字節(jié),也得插一遍,要改A,就改A,要改B,就改B,不會大面積地影響它的壽命。有些磁盤賣得貴,貴在什么地方?除了貴在它的性能上,也貴在壽命上。首先大家都不愿意換盤,必須要承認商業(yè)的硬件一定有壞的可能。硬件廠商是盡量保證它不壞,或者告訴用戶說,我有不同檔次的產(chǎn)品,你愿意花多少價錢,來換取什么樣的檔次。軟件廠商用各種分布式、各種技術來保證當盤壞了的時候,不影響系統(tǒng)情況下,盡量快地恢復。對于SSD這種介質(zhì)來說,都有一個類似的指標,拿到一塊硬盤,就把它插上去,開足了馬力不停地插和寫,它多久會壞?這個地方,就是我們的一個叫Petabytes Written指標,24小時,365天這么寫,英特爾保證是5年的質(zhì)保。從技術上講,以及上面預留的空間,可以保證你不停地寫,寫不壞它,寫壞了,英特爾一定負責。
說了半天硬件有多好,紅花也要綠葉配,英特爾就是綠葉。綠葉要來配各朵大紅花,這么快的硬件,光說它快,沒有用,用戶看的是我在我的應用里面,我用ORACLE、SPARK等等各種東西情況下,你比我原來快多少,你的性價比是不是滿足我的需求。因為它快,大家想到的在數(shù)據(jù)庫領域里面打轉(zhuǎn)轉(zhuǎn),大家的追求不一樣了,國內(nèi)國外的軟件,我們都在進行大量的適配和應用,性能都有大量的提升。
其他的廠家,國內(nèi)的廠家生態(tài),從基礎架構(gòu)的操作系統(tǒng)級面的,主要的數(shù)據(jù)庫,大數(shù)據(jù)應用軟件的,國內(nèi)的CSP,基本上各種互聯(lián)網(wǎng)的提供廠商,包括公有云的,手機或者是電腦用的軟件,以及OEM這些廠家,保證從硬件到基礎件,到軟件,再到主流的CSP都能提供這種訪問服務。
講到Redis,Redis提升的性能很大。最近5、6年,短視頻的互聯(lián)網(wǎng)行業(yè)發(fā)展非???。快手、抖音,這些都是其中的優(yōu)秀代表。快手就用了,還有很多企業(yè)級的用戶也用了。短視頻挑戰(zhàn)就是數(shù)據(jù)量太大,數(shù)據(jù)量大到一定級別,就會由量變引起質(zhì)變,傳統(tǒng)的架構(gòu)上是企業(yè)級來設計的,撐不住海量數(shù)據(jù)的飛速爆炸??焓钟肦edis提升了性能,整體的TCO降了30%,因為不再需要這么多臺機器。原來要滿足它的業(yè)務,假設說得用10臺,現(xiàn)在用更少的機器,雖然說更貴了,把機器的內(nèi)存加上傲騰去,雖然單機更貴了,但是整體服務器數(shù)量可以更少。騰訊云 Redis 云數(shù)據(jù)庫也是加上了傲騰,性能提升了30%多。
(以上內(nèi)容基于演講實錄整理,如有紕漏,敬請指正。)