北京中存超為科技有限公司創(chuàng)始人、CEO兼首席科學家 沈杰博士
以下為嘉賓演講內容整理:
今天我給大家?guī)淼难葜v題目是《NVMe全閃存儲的產品和技術分析》。NVMe技術這幾年比較火,從這張圖我們可以看到十年間數據增長了10倍。右邊是IDC的報告,提到了熱數據、溫數據和冷數據,現在也有人提出:快數據、大數據等新概念。這我想說兩點,第一是數據本身的增長非???,第二,這些熱數據都是些關鍵數據,比如說你的手機上的數據,或者要求實時處理的數據。
我們知道存儲的革命是閃存器件帶來的,現在已經發(fā)展3D了。今年已經推出了96層產品,而且預計最高可堆疊到512層。企業(yè)級存儲方面,有三種產品形態(tài),最上面的深藍色的是全閃存,這個是最快的。中間是混合型,基本占40%,而且基本變化不大。第三部分是硬件陣列,逐漸往第二級第三級走。
性能方面,如果用SSD取代硬盤,IOPS可以達到兩三萬,這就是器件顆粒帶來的優(yōu)勢,因為它使用了SSD接口,如果我們使用NVMe接口,那么則會帶來更高的并發(fā)。這就是說有的時候你從硬件、器件上帶來的一些革命性的東西,但是你的接口也要升級。NVMe接口大家都比較熟,它是專門為SSD開發(fā)的,指令級非常小,對TCO的占有率也非常小。
通過下面張圖片可以比較一下,上面是NVMe-oF,底下是普通的網絡,那我們可以看到,在一般企業(yè)級存儲里要經過一層網絡,這個網絡協議里有很大改善,尤其是RDMA,是現在最流行的做法??梢姡琋VMe跟RDMA是絕配。
這張圖實際上是說全閃存的發(fā)展階段,基本上1毫秒已經是一個非常好的數字了,因為它用了SSD接口,整個陣列內部可以使用NVMe,外部為了兼顧以前的客戶還是用的CPU。
現在比較一下,就是說這些年來一些全閃存的產品,我們分了三類,第一類叫傳統(tǒng)產品擴展方案。這里我們看到廠家一般都是一些比較知名的老廠商,它的特點是它用傳統(tǒng)的存儲系統(tǒng),然后為閃存器械進一步的優(yōu)化。最大的優(yōu)點是所有企業(yè)級的功能都具備,這個是比較厲害的。我們將注意力放在后兩個,因為后兩個方案是真正為了閃存而設計的,里面分為硬件和軟件,我們叫閃存設備方案,這個全閃存方案無論從器件還是陣列,有沒有企業(yè)級功能都不是很重要,我們只是把它看做一個設備。
最后我想說的全閃存的原生方案,整個系統(tǒng)就是為全閃存設計的,因此你的軟件系統(tǒng)一定是重寫的,比如我們中存,以及所有的廠家都有自己的系統(tǒng),而且他們是以轉接為中心的,提供一個完整的解決方案。
第一個最大的特點是在線壓縮的功能,這是原生的,所以做的非常的好。而且這里頭我們看到,它不光有NVMe的接口也有SAS口。這個全閃存設備方案是說,陣列提供的是高性能存儲的東西,類似這種方案追求的網絡延遲是10到50μs,可以說是性能非常高的一款產品。
在這里我想提一款比較有名的EMC DSSD,以前是先驅,現在算是先烈了,它做了很多想法非常新的東西。我們現在的標準就是當時他們的內部協議。在它的存儲中,有一個控制模塊,一個存儲模塊,存儲模塊里SSD卡,是雙端口的卡,這家公司內部早就開發(fā)出來了。它也有跨設備的DMA,他們早就在做了,美國很多出廠公司可以說是提前三、五年就在做這些事情了,當然他的代價是什么,就是成本,成本非常高?,F在這家公司已經被收購了。
原生的系列一定有自己的系統(tǒng),一定也有文件系統(tǒng)的話。這一點做的比較好的是Pure strage,它可以提供機柜式的方案。整個硬件都是自己做的,所以我們說這是偏硬件的解決方案。
原生方案我還想講一下Kaminario K2,它支持scale-out,動態(tài)劃分私有存儲陣列(控制器+閃存),軟件定義,標準硬件。
第三個就是我們的中存光子3000,控制器是雙控,前端網絡40GB,當然還可以向上升級,底下用NVMe接口,原生的文件系統(tǒng)。
這里我想跟大家分享一下,我們在做原生的文件系統(tǒng)時考慮的幾個問題。首先,我們找到幾個其他公司的產品,比如像Pure Storage。我們想到了個部分,第一是數據的組織,什么叫數據的組織呢?因為這是一個快設備,數據塊來了我放哪兒呢?其實很簡單,一般就是地址尋址和內容尋址,一般的產品是這么做的。
中存用的是快速尋址的方法。通過計算,根據信息過來的塊地址以及它的內容在兩方面做計算,有這塊以后目錄數得到大大的壓縮,一般目錄數是有一定深度的,比如你可能是五級、六級壓縮到兩級三級時間是不一樣的,有效的降低了時間,這是我們對數據的組織。
我們知道在SSD里對空間的回收非常的重要,它一般有兩種方式,一個是參考計數,一個是參考驗證,這兩個詞非常相近,就是你在做讀寫的同時,我把跟它有聯系的數據塊記住。這樣,一定時間以后,如果沒有東西跟它有聯系,那么就清除掉它。還有一個叫標記掃描,它是全局式的垃圾回收。在這種方式下,它的好處就是全局做的好一點,壞處就是對系統(tǒng)資源占用非常大。
我們是怎么做的呢?我們參考這兩種方法,在寫數據的時候,我們提供一些參考信息,但是又不是完全的信息,我們的目就是減少對寫性能影響,但我們還要產生一些信息,在我做標記掃描的時候就可以利用這樣的信息,大大的減少我們的資源占有,同時降低性能,這就是在空間回收中做的考慮。
我們知道SSD是一個盤,你需要對它做一些劃分,而且現在基本都是日志型的。中存也不例外,一種是一個區(qū)塊,這個我們認為是中粒度的,細粒度的叫條帶,支持變長數據塊,數據聚合。我說的中粒度的區(qū)塊,實際就是我們考慮的原數據,數據和日志數據實際上是分區(qū)的,有點像數據分層的感覺。首先,這樣的寫性能會比較高。其次,分區(qū)管理以后,內部實際上還是一個反復的可以輪換的,且磨損技術做的非常好。
作為一個存儲系統(tǒng),企業(yè)級存儲都具備掉電保護,很多都用NVRAM。中存在這里跟大家的系統(tǒng)都不一樣,我們有一個創(chuàng)新,但是還有待于系統(tǒng)驗證。我們是直接落盤。省去中間過程,系統(tǒng)實際上更簡單,簡單就會帶來更穩(wěn)定。當然,系統(tǒng)可以特別復雜,但是一般來說簡單跟穩(wěn)定是聯系在一起的。當然,直接落盤帶來的直接好處就是,系統(tǒng)穩(wěn)定,低配置和低成本。因為我們看到,目前全閃在中國占有率不到6%,而美國占有率已經達到36%,因此最重要的還是成本。我們認為在設計產品里,如果能進一步壓縮成本。那么,在達到一定性能指標的情況下,把成本壓縮下來對市場會有相當大的市場。
這里比如你的掉電保護,你得有一些東西是保證的,比如我們這里真雙控,這個很厲害。為什么要下那么高的工夫降低延時呢,我們是直接落盤的。最后數據保護大家用的都差不多,把你的力度減少,這樣會快。這里大家做法都比較一致了。
這張圖實際上是我們一個性能圖,因為在我們的展臺上,現在就在演示著,右邊的這個是我們做的4K隨機讀隨機寫測試,4KB隨機讀IOPS可達1169081。
這個圖可能有些人比較熟悉,因為去年的時候我們給大家分享過,我們認為本地的主存儲一般是混合型,我們也在這方面做了開發(fā),現在進行市場推廣。今年我們帶來了全閃產品,而且明年會正式推出。
既然講全閃陣列,我也想提一提以后的趨勢,我們知道NVMe標準,但是這個協議還沒有正式發(fā)展。RDMA是最火的,也可能還有其他的會繼續(xù)發(fā)展。開發(fā)平臺我認為應該是SPDK,在我們的應用開發(fā)中,正在大量使用。器件方面,我們知道3D-NAND器件有很大的發(fā)展前景。像Intel Purley在芯片級方面都有對NVMe更好的支持,所以在系統(tǒng)設計的時候一定要考慮這個問題。
最后做個廣告,我們今天給大家?guī)砹斯庾?000 NVMe全閃存新品,明年就要正式推出了,歡迎大家去看一看,謝謝大家。