Dostor總編宋家雨(左)特邀上海川源全閃存儲產(chǎn)品副總裁蔣焱華(右)進行了專訪

宋家雨:請蔣總介紹川源?

蔣焱華:川源總部位于上海臨港,是一家創(chuàng)新公司,存儲界新秀,但在全閃存存儲領(lǐng)域,川源卻是IT業(yè)界的老兵,因為它有多年積淀。公司有很多科學(xué)家、研發(fā)工程師在存儲軟件研發(fā)有多年技術(shù)積累,也因為如此,川源選擇了全閃存領(lǐng)域,不僅有產(chǎn)品,也有很多解決方案,其中全閃存陣列是比較核心的業(yè)務(wù)。

宋家雨:與競品相比,川源有哪些競爭優(yōu)勢?

蔣焱華:川源的核心在于存儲軟件,我們核心存儲軟件叫FlexiRemap,是100%自主研發(fā),沒有使用開源軟件,不涉及國外任何知識產(chǎn)權(quán),在國內(nèi)外擁有700余項專利權(quán)項,這是川源最有競爭力,也是最有核心的一塊。

FlexiRemap完全基于閃存的特性開發(fā),因此可以更好地利用新的NVMe協(xié)議,利用全新NVMe-oF架構(gòu)去釋放閃存的極致性能。

從技術(shù)上說,F(xiàn)lexiRemap核心技術(shù)有幾部分:

第一,它打破了傳統(tǒng)RAID技術(shù)。閃存盤速度更快,處理能力更高,但是閃存盤的閃存顆粒也有它的問題,比如寫放大、垃圾回收、緩存讀進/讀出等問題。FlexiRemap完全打破了傳統(tǒng)RAID對于機械盤的支持模式,通過地址映射表、糾錯碼,從介質(zhì)操作層面對數(shù)據(jù)進行保護,從而避免了傳統(tǒng)RAID對閃存顆粒寫壽命的傷害。

第二點,類似服務(wù)器分布式存儲通過大量緩存把性能打上去,這樣的代價是比較昂貴的。所以FlexiRemap核心的一個地方在于它是無緩存技術(shù),它是通過底層順序?qū)懭?,它把底層?shù)據(jù)塊打散以后,順序?qū)懭胍院?,保證確保它的I/O可以直接落盤。

宋家雨:您講到了直接落盤,這是怎么實現(xiàn)的?我還是沒有聽得太懂,您給介紹一下。

蔣焱華:主要是在FlexiRemap底層的一些地址,它對每一個I/O,它都會在不同的打散的每個SSD上標記它的位置,然后它做到順序地寫入。原來的緩存技術(shù)是對I/O做一些批量的處理,它把一些I/O放在緩存里面,然后通過內(nèi)部的算法,從緩存統(tǒng)一去落盤。而這種方式,如果是用機械硬盤的這種思維是OK的。

其實川源在設(shè)計上,堅持在容量、功能、性能和性價比等方面達到一種平衡,不要為了性能去損失容量的需求,也不會因為性能在性價比方面讓成本不斷增高,我們認為緩存對于機械硬盤來說,可能是一個比較成熟,也是一種比較習(xí)慣的使用方式。但是閃存有更快的處理能力,尤其是在NVMe over Fabrics(NVMe-oF)架構(gòu),I/O通道已經(jīng)不會成為瓶頸,有強大帶寬保證,落盤是完全可以做到的,保證它寫入的性能。

還有很重要的一點,閃存顆粒是一種耗材,它是有磨損的。保證它的順序、平均寫入,就可以確保SSD磨損均衡,帶來一個極致的性能。

宋家雨:請介紹一下川源NVMe-oF方案?

蔣焱華:NVMe-oF是我們打破原有的機械硬盤思維,跨越到新的固態(tài)盤。但是現(xiàn)在很多廠商基本上都在推NVMe盤,新的存儲陣列。

NVMe盤相對于原來的SATA/SAS SSD盤,無論是隊列深度還是并發(fā)量以及對CPU的開銷,它確實是一個很大的提升。但是NVMe需要一個強大的架構(gòu)和一個很出色的存儲軟件,來發(fā)揮它的極致的性能。并不是把現(xiàn)有機械盤換成NVMe盤,就能夠做一個NVMe全閃存陣列。

從川源的觀點看,NVMe-oF是真正可以去發(fā)揮NVMe盤極致性能的架構(gòu)。因為從架構(gòu)上,它借助了新一代RDMA網(wǎng)絡(luò)的特性,把計算和存儲做了完全的解耦,讓計算去做計算應(yīng)該做的事情。NVMe-oF解決的就是這種解耦,如果客戶需要增加計算,只要增加服務(wù)器就OK了;需要增加存儲的性能,同步增加存儲網(wǎng)關(guān)就可以了。

為什么存儲相比計算、網(wǎng)絡(luò),其迭代速度很慢,或者按部就班?原因在于只能在傳統(tǒng)架構(gòu)上做加法:2控變成4控,變成8控;磁盤柜由4個磁盤柜變成8個,直至塞滿客戶的機柜,這仍然抵擋不住客戶數(shù)據(jù)指數(shù)級增長,我們會再去買一個磁盤柜去做級聯(lián)、鏡像、數(shù)據(jù)復(fù)制。

川源要做的不是這樣,它是通過存儲網(wǎng)關(guān),你可以把它當做一個控制器,在RDMA的基礎(chǔ)上,它可以直接落盤了。所以在客戶需要存儲性能的時候,只要平行增加網(wǎng)關(guān)就可以了。當客戶需要容量的時候,只要在下面增加放置SSD盤的閃存柜就可以了。

宋家雨:NVMe-oF這樣的方案,對我們前端的應(yīng)用有什么樣的要求?

蔣焱華:在過去幾年應(yīng)用軟件和存儲是在做一個互相遷就的過程。誰跑得更快,誰就會去追趕、去適應(yīng)它。原來機械硬盤就是這樣一個局面,應(yīng)用軟件、數(shù)據(jù)庫去做很多調(diào)優(yōu),實質(zhì)就是往下去遷就。為了不把壓力全部壓在存儲端口、通道上面,就在計算、處理進行分散,通過數(shù)據(jù)切片分散到網(wǎng)絡(luò)層面,這是應(yīng)用原來去做的這些事情。

未來,存儲管道一下子粗了,存儲資源池容量一下子大了,相信應(yīng)用會很快做出調(diào)整,而且目前新經(jīng)濟數(shù)據(jù)應(yīng)用,非??释羞@樣的大管道、大通道、高吞吐; AI、自動駕駛都需要極大數(shù)據(jù)量處理,比原來要復(fù)雜得很多。所以我認為一旦NVMe-oF成為主流,各個業(yè)界都在去搭建應(yīng)用軟件,會很快做出響應(yīng),這是不用擔心的。

從目前來說,主流數(shù)據(jù)庫、應(yīng)用軟件、中間件跑在NVMe-oF是沒有問題的,首先我們還是一個底層的協(xié)議,它不會去改變應(yīng)用的模式或者它的設(shè)計的邏輯。真正的課題是在于通道大了以后,應(yīng)用軟件怎么更好地去部署,就是你的算力,原來服務(wù)器的算力怎么更好的去做一些匹配,這是可能整個架構(gòu)接下來要去考慮的問題。

宋家雨:請您預(yù)測一下NVMe-oF這樣的方案,未來市場上的占比?

蔣焱華:先看全閃存,最新IDC報告顯示:2020年中國整個企業(yè)級外部存儲市場大概在300億元規(guī)模,全閃存陣列占比20%都不到,就是60億元左右的水準。從空間來說,這一塊至少有200億元的成長空間,這個市場足夠巨大。

從去年的Gartner 成熟曲線來說,NVMe-oF已經(jīng)進入了第二階段,市場對這個技術(shù)的期待到達了顛峰。從IDC的建議來說,包括很多數(shù)據(jù)中心的決策者來說,他們都是希望未來5~10年能夠把全閃存、NVMe-oF架構(gòu)引入到數(shù)據(jù)中心。所以,我覺得未來市場規(guī)模是很大,時間應(yīng)該就是在5~10年,甚至于可能更快。

宋家雨:我們知道川源有一個三部曲:集中式全閃存陣列、擴展式低時延的架構(gòu)和分布式全能存儲解決方案,能不能介紹一下?

蔣焱華:這可能也是川源的一個愿景,未來發(fā)展是實現(xiàn)全閃存不分行業(yè)與應(yīng)用的全面覆蓋。

第一部曲就是川源的新藍寶,叫NeoSapphire,已經(jīng)在市場上有一定的接受度。我們在金融、醫(yī)療、制造業(yè)和教育行業(yè)都有這樣的產(chǎn)品被使用。它還是一個集中式全閃陣列,有控制器,有全閃存盤,基于FlexiRemap的算法,可以說是1.0。

我們的2.0就是基于NVMe-oF,川源的存儲網(wǎng)關(guān),把存儲性能和存儲容量的擴展做解耦,通過RDMA網(wǎng)絡(luò)實現(xiàn)性能的極致性能和性價比。在1.0的時候已經(jīng)達到了1個節(jié)點、2U24盤、120萬IOPS的4KB隨機讀和70萬IOPS的4KB隨機寫入的性能,在我們的展臺有現(xiàn)場性能演示。2.0目前在我們的測評中,在10~12個網(wǎng)關(guān)的范圍內(nèi),擴展柜內(nèi)包含閃存盤總數(shù)少于150塊的數(shù)量,就能夠做到2000萬IOPS的4KB隨機訪問性能。

3.0是一個更遠大的目標,如今分布式存儲非常熱,但沒有解決好的一個問題容量擴展后的性能問題,其性能較之集中式全閃存是有差距的。川源會做一個高性能分布式存儲解決方案,基于NVMe-oF架構(gòu)去實現(xiàn)它的高性能,它可以提供一個極致的性能和性價比。

宋家雨:謝謝蔣總的分享。

蔣焱華:謝謝宋老師。

分享到

songjy

相關(guān)推薦