以下為嘉賓演講內(nèi)容整理:
李曉蘇:
這個是我今天要講的目錄,我會集中討論一下現(xiàn)狀和趨勢。說起NVMe大家都知道,目前非常火爆,大家基本上天天在討論。從磁盤的技術(shù)發(fā)展開始,我們可以看得出來,從最早1950年磁盤發(fā)明出來,磁盤的發(fā)展一直朝更高的容量,更快的速度發(fā)展?,F(xiàn)在在NVMe的情況下,我們專門針對閃存有了協(xié)議,使其最大限度發(fā)揮出閃存的威力。
這個是NVMe協(xié)議的路線圖,大家可以從中間看到,這是NVMe的主協(xié)議,下面是它的管理接口。
未來的發(fā)展方向,也就是下一個大的版本會在2019年推出,也會有相應(yīng)的新的特性。我們認為在2019年,我們會關(guān)注以下這幾個方面,更高的擴展性、多路徑的支持,以及更多網(wǎng)絡(luò)類型的支持。
我們現(xiàn)在有哪些網(wǎng)絡(luò)呢,這個是我們的現(xiàn)狀,大家非常清楚,我們所有目前的NVMe的磁盤也好,都是構(gòu)架在PCle上面的。
RDMA大家從字面翻譯可以非常清楚的明白它的含義,就是遠程的直接內(nèi)容訪問,我們本地的網(wǎng)絡(luò)節(jié)點可以穿越遠端層,更快訪問我們所需要的數(shù)據(jù)。
RDMA技術(shù):iWARP 2007互聯(lián)網(wǎng)工程工作組(IETF)標準;在TCP/IP上運行、RoCE 2010 lnfiniBand 行業(yè)協(xié)會。
RDMA-iWAPR和RoCE的區(qū)別:由于L3/L4間的區(qū)別,iWAPRP和RoCE不能互相傳輸RDMA流量
iWAR和RoCE的區(qū)別。
iWARP:采用TCP/IP作為傳輸協(xié)議。不需要無損以太網(wǎng)(BCB/PFC)就可以運行。在企業(yè)、數(shù)據(jù)中心和多站點環(huán)境中提供無限的可擴展性。
RoCE:比iWARP更輕量的協(xié)議(L2與L3)。高性能計算(HPC)所需的更低延遲。
要求無損以太網(wǎng)(DCB/PFC)。
RDMA怎么選擇?
生態(tài)系統(tǒng)就緒性:軟件:大多數(shù)操作系統(tǒng)和應(yīng)用同時支持iWARP和RoCE。第二個我們有沒有強大的管理能力。
硬件RoCE:CAVM、MLNX;
iWARP:CAVM、INTC、Cheisio
我們認為Roce和iWARP適合不同的應(yīng)用場景:RoCE適合小型HPC集群,iWARP適合數(shù)據(jù)中心規(guī)模部署。
FC是占據(jù)主導的協(xié)議,所以它的設(shè)計之初就是為存儲設(shè)計的,所以FC-NVMe這塊,我們的目標是盡可能利用FC現(xiàn)有的更高性能的特性部署我們的NVMe。我們的特色就是在協(xié)議設(shè)計的時候,可以利用現(xiàn)有的FC HBA和FC交換機硬件。
發(fā)送NVMe SQE和CQE條目,而不是很少進行交互。
到了第二步,第一個就是在存儲端的磁盤這一塊做改變,因為現(xiàn)在NVMe磁盤已經(jīng)是非常大的產(chǎn)業(yè)規(guī)模了,這塊是第一步,我們先把存儲系統(tǒng)的后端變成了NVMe,這樣先比傳統(tǒng)的SCSI已經(jīng)有了非常強硬的性能,看得見的性能提升。這塊還并不完整,并不完善,因為我們在傳輸?shù)倪^程當中依然需要從傳統(tǒng)的FCP轉(zhuǎn)換。因此我們認為再下一步變成端到端的,從他訪問我們開始就是NVMe的環(huán)境。
剛才講的都是協(xié)議層面,我們來看一下Cavium作為IO的廠商做了哪些工作。
首先,我們先了解一下FC。剛才我們講到網(wǎng)絡(luò)跟交換機的兼容性,目前還在做的廠商就是跟博科。對于其他的熱門廠商比如微軟來講,也會在它下一個大的版本當中加入我們驅(qū)動的支持。
網(wǎng)卡支持:QL45000系列/QL41000系列。
速率從100G/50G/40G/25G/10G;
操作系統(tǒng)Linux? upstream? kermel:4.8版本。
在NVMe over? Fabrics 市場上的領(lǐng)先優(yōu)勢:Cavium/Qlogic是唯一同時提供以太網(wǎng)RDMA和FC光纖網(wǎng)絡(luò)NVMe協(xié)議。