圖:阿里巴巴高級技術(shù)專家,阿里云智能文件存儲架構(gòu)師裴曉輝

阿里巴巴裴曉輝:基于全閃的核心業(yè)務(wù)系統(tǒng)上云架構(gòu)與應(yīng)用

裴曉輝 :大家好,我今天演講的題目是,《基于全閃的核心業(yè)務(wù)系統(tǒng)上云架構(gòu)與應(yīng)用》,分享四個方面的內(nèi)容,一是回顧介質(zhì)的發(fā)展史,二是阿里在閃存技術(shù)方面的發(fā)展,三是文件存儲在閃存技術(shù)方面的開發(fā)和實踐,第四是NAS產(chǎn)品大圖。

介質(zhì)發(fā)展史

存儲介質(zhì)的發(fā)展經(jīng)歷了很多的階段,從最開始的打孔紙帶到后面磁帶存保存冷的數(shù)據(jù),后面還有磁盤、軟盤,這些介質(zhì)年輕的同學可能都沒有見過,從IBM 1TB硬盤和現(xiàn)在的閃存,總的來說可靠性是越來越高。

這里跟謝長生老師的觀點不同的地方是從核心業(yè)務(wù)和關(guān)鍵數(shù)據(jù)上閃存的角度看閃存已經(jīng)是一種主流了,尤其是在大數(shù)據(jù)和虛擬化方面,并且金融、政府,政企云、電信已經(jīng)加快了,比如說在線的金融,尤其是交易系統(tǒng),如果有一個比較高的抖動就會帶來經(jīng)濟上的損失,還有代碼托管等。

閃存在四個方面會對業(yè)務(wù)帶來比較大的幫助,極致的吞吐能力,很低的延時,能耗和性能的下降會降低綜合成本,故障率的降低。

阿里在閃存技術(shù)方面的發(fā)展

阿里云ESSD云盤也是今年大規(guī)模商化的,帶來了極致的體驗,有100萬IOPS的能力和4GB的吞吐。在這張圖可以看到,阿里云的ESSD云盤的性能比友商遠遠領(lǐng)先的,我們?nèi)〉眠@么好的性能,是我們有一個高性能的技術(shù)?;A(chǔ)。

我們在虛擬化技術(shù)方面IO模型是一個多通道的模型,另外我們有非常高性能的RDMA的網(wǎng)絡(luò)協(xié)議棧、自研用戶態(tài)文件系統(tǒng),還有非常重要的Run-to-Complete無鎖線程模型,這些技術(shù)保障了非常好的性能。

阿里有一個很重要的基石是盤古分布式文件系統(tǒng),具有高可靠、快速故障恢復,極低的空間成本提供極高的數(shù)據(jù)安全性。

文件存儲NAS極速型利用了ESSD和閃存的極致性能的能力,和我們文件存儲CPFS他們是有不同的定位,文件存儲CPFS提供了幾十GB的吞吐能力,提供毫秒級的延時,你可以做高性能的計算,文件存儲通訊型給你一個線性擴展的能力,給你一個比較低的成本。

介紹一下極速型NAS極致性能的軟件棧,在最上層有一個高性能的網(wǎng)絡(luò)協(xié)議棧。前面已經(jīng)提到RDMA的高性能協(xié)議棧,另外我們的文件系統(tǒng)是一個完全自研的文件系統(tǒng),包括NAS訪問的協(xié)議我們都是完全自研的,100G的網(wǎng)絡(luò)也在不斷地研發(fā)中。最下面是盤古文件系統(tǒng),提供了一個非常好的能力。

我們極速型NAS的核心分為兩個部分,一個有百微秒級的時延,最高讀寫45K的能力,我們支持20億小文件的規(guī)模,并且還可以彈性的擴展。另外在數(shù)據(jù)安全這方面是做了很多的工作,你可以對文件系統(tǒng)打快照,這樣在發(fā)生文件誤刪的時候,可以把文件恢復出來,也可以去做數(shù)據(jù)的加密。

另外,極速NAS提供了非常豐富的訪問控制,接下來介紹一下產(chǎn)品規(guī)格,針對不同的應(yīng)用,和用戶場景提供了非常豐富的容量規(guī)格,并且還支持按量付費,或者是包年、包月的方式。目前極速NAS支持的協(xié)議是NFSV3,在后面可能會支持更多的協(xié)議。我們這邊IOPS的能力,從20-45K的幅度,在未來也會有更高的能力。

文件存儲在閃存的開發(fā)和實踐

下面簡單的介紹一下極速型NAS的應(yīng)用場景,第一個Nginx、PHP網(wǎng)站和WEB服務(wù)。第二個持續(xù)代碼托管和CI的集成,另外一個現(xiàn)在比較熱的ECI容器,高性能的共享存儲,這些應(yīng)用都對時延非常敏感,會有大量的原數(shù)據(jù)的操作。使用通用型NAS時,就會導致系統(tǒng)運行比較緩慢,比如說網(wǎng)站的加載速度比較慢。

下面是兩個具體的用戶場景實例,某一個電商網(wǎng)站會把網(wǎng)頁的素材放在我們極速型NAS上面,當用戶每次打開的時候會需要大量的網(wǎng)絡(luò)小文件的加載,這樣當你的后端存儲的時延比較高的時候用戶體驗是非常差的,會發(fā)現(xiàn)打開那個文件需要比較長的時間,這樣對用戶的體驗是非常差的。他們遷移到極速型NAS之后網(wǎng)頁加載的速度提升了20倍,保存日志到極速型NAS時,系統(tǒng)CPU下降了7倍,給用戶帶來了跟本地文件系統(tǒng)比較接近的用戶體驗。

另外,下面是一個比較重要的例子,國內(nèi)某個頂級的金融服務(wù)使用K8S容器服務(wù)時,對于極速型NAS提出了非常高的要求,這是因為他們?yōu)橐粋€股票APP提供服務(wù),當IO延時較高時很可能導致某一項交易沒有成功或者變慢,會變成非常糟糕的事情,可能會造成非常大的經(jīng)濟損失。當有極速型NAS之后,我們給他們提供了10萬左右的IOPS,這里的IOPS包含了讀寫,還有原數(shù)據(jù)的操作。

阿里提供百微秒的時延滿足了頂級金融服務(wù)商對下面存儲延遲的要求。另外極速NAS是獨享的,所以說不管是一個容器還是十個容器起來的話實際上他們之間是沒有相互影響的,這樣可以讓用戶體驗到穩(wěn)定的性能,這一點對于金融的用戶是非常重要的,不允許存在毛刺,我們極速型NAS為容器提供了非常好的多機的共享能力。

NAS產(chǎn)品大圖

最后,我再簡單介紹一下NAS產(chǎn)品的大圖,我們最上面是NAS為K8S,神龍裸金屬服務(wù)、ECI、HPC批量計算、GPU服務(wù)還有機器學習,這些應(yīng)用的場景我們都提供了非常好的解決方案,并且還可以和阿里云日志分析,智能的分析,生命周期的管理,拷貝的管理,防病毒這些額外的服務(wù)是可以銜接起來的。

在最下面我們對協(xié)議上面的支持,我們支持標準的NFS和SMB,值得一提的是我們文件存儲NAS的協(xié)議層消耗比業(yè)界軟件的消耗要小很多。另外,我們這邊還支持了并行的文件系統(tǒng),主要是支持MPI的API的調(diào)用,會有一個非常好的吞吐能力。

另外,我們這邊高級特性還在不斷完善過程中,在下面還是基于阿里云飛天盤古這一套分布式存儲系統(tǒng),他給我們提供了非常好的數(shù)據(jù)安全特性,還有一個極致的性能。另外,我們針對IDC計算接入云上面有比較好的方案,比如說可以通過VPN或者拉條專線或者NAT的方式去銜接。用戶上云的時候會面臨數(shù)據(jù)遷移的問題,所以說在文件存儲NAS這邊也提供了在線的遷移服務(wù),并且還支持不同產(chǎn)品間數(shù)據(jù)遷移。

今天我這邊分享的內(nèi)容基本講完了,最后還要為文件存儲打一個call,如果在座的各位有致力于做下一代文件存儲可以聯(lián)系我的,咱們?nèi)プ鲆粋€完全自研的,基于阿里云飛天的文件存儲。

主持人:謝謝曉輝,阿里云在很多技術(shù)上都是自研的,技術(shù)研究的很深,大家如果有什么問題,請抓緊時間提出來。

提問:剛才講了這么多阿里云上提供了這么多文件系統(tǒng),有不同的產(chǎn)品,其實我理解做文件存儲在時延和帶寬就像天平的兩端怎么樣去平衡,我想請問一下今天著重介紹的產(chǎn)品,我的感受是在時延上有一些獨到的地方,那阿里云在文件存儲上如何考慮在時延和帶寬上怎么樣均衡和發(fā)展,甚至后面是有可能做到融合嗎?

裴曉輝:這是非常好的問題,咱們?nèi)プ龃鎯ο到y(tǒng)的時候是兩個重要的指標,一個是時延,你訪問我的延時,另外一個是吞吐能力,這是一個相互之間有此消彼漲的問題。剛剛提阿里云在閃存技術(shù)發(fā)展的時候能看到,我們現(xiàn)在已經(jīng)商業(yè)化的ESSD的100萬的IOPS能力是給我們提供了一個非常好的工程實踐上的經(jīng)驗,并且阿里云所有的軟件架構(gòu)也在向剛剛提到的那些方面做演進,比如說我們的軟件站磨的越來越薄。

另外,關(guān)于延時和吞吐不是一概而定的問題,要針對用戶的場景提供最好的方案,比如說如果是AI計算可以用CPFS。

提問:極速文件系統(tǒng)為啥容量限制在32T?還有一個問題是高性能網(wǎng)絡(luò)協(xié)議對于我們用戶來說需要定制化客戶端嗎?

裴曉輝:針對第一個問題我們內(nèi)部32T最大的上線不是一個應(yīng)用的限制,這是我們經(jīng)過了一些調(diào)研之后發(fā)現(xiàn)的,當然如果有更大的需求可以提供一個工單聯(lián)系我們可以開放的。第一個我們對上限沒有限制的,甚至可以做在線的擴容。

第二個問題在做NAS過程中需要面臨很重要的問題,就是客戶端的問題,NAS跟對象和快有一個不同的地方是客戶端的用戶操作系統(tǒng)可能是千差萬別的,它上面的客戶端的實現(xiàn)也是不一樣的。不同的客戶端需要有不同的參數(shù)配置,才能夠有更好的性能。

針對這些問題我們做了自動化的工具,只要把工具在ECS上或者客戶端上去運行會給你一個很好的建議。比如說哪些參數(shù)做什么的調(diào)整和配置能夠達到很好的性能。這個是針對標準客戶端,標準客戶端已經(jīng)不是特別匹配云環(huán)境。比如說會影響下面的并發(fā)能力,我們這邊也在去做定制化客戶端的事情,它會比本地客戶端有更好的性能、更好的穩(wěn)定性,還有更容易使用的方式。你去使用NAS的時候不需要改任何代碼,只需要掛在上面,和本地文件系統(tǒng)一樣很愉快的訪問他了。

主持人:謝謝阿里的專家,下一位演講人是Eden Kim先生,來自SNIN硬盤技術(shù)工作組主席、Calypso CEO。

分享到

xiesc

相關(guān)推薦