尊敬的各位領(lǐng)導(dǎo),各位專家、朋友們,大家好,我是清華大學(xué)鄭緯民,非常高興來參加“2021中國數(shù)據(jù)與存儲(chǔ)峰會(huì)”。
大數(shù)據(jù)誕生以來,各種各樣的數(shù)據(jù)越來越多,數(shù)字化、數(shù)字經(jīng)濟(jì)時(shí)代,數(shù)據(jù)按照指數(shù)形式增加,這么多數(shù)據(jù)都放在存儲(chǔ)器里,對(duì)存儲(chǔ)器提出了越來越高的要求,如功能強(qiáng)、容量大、性能好、安全,還有很重要一點(diǎn):自主可控。
去年,習(xí)總書記跟科學(xué)家座談會(huì)上談到,要盡可能地做從0到1的創(chuàng)新。我一直在想,我們存儲(chǔ)系統(tǒng),我們數(shù)字這方面能不能做從0~1的創(chuàng)新?
我想應(yīng)該是可以的。下面舉兩個(gè)例子來說說這件事。
第一個(gè),我們做了一個(gè)大容量、高可靠、自維護(hù)的存儲(chǔ)系統(tǒng)。大家都都知道,硬盤它有一定的出錯(cuò)率,也有可能要壞掉,但是硬盤壞了以后呢,如何挽救其中存儲(chǔ)的數(shù)據(jù)不要丟,現(xiàn)在常用的兩種辦法。
一是把文件往磁盤寫的時(shí)候,寫三份在不同盤里,因此,有一份壞了,還有兩份是好的,我們說多備份技術(shù)。它的缺點(diǎn)是要多買200%的硬盤。
還有一個(gè)常用辦法呢,就磁盤陣列,如RAID 5,RAID 6。
以RAID 5為例,一個(gè)文件來了后記在五塊磁盤里,其中四塊記數(shù)據(jù),還一塊記校驗(yàn)碼,一塊盤壞了以后呢,能把數(shù)據(jù)恢復(fù)出來。
但是有兩個(gè)不好的地方。一是磁盤壞了,得趕快把這個(gè)壞盤拔出來,換一塊新盤,如果忘了,有可能第二塊盤故障后那就數(shù)據(jù)全丟了。
第二個(gè)呢,新盤存進(jìn)去以后要做數(shù)據(jù)的恢復(fù),這個(gè)過程非常慢。
針對(duì)兩種常用辦法,我們基于糾刪碼的高可靠采取了新的對(duì)策。
舉個(gè)簡(jiǎn)單例子。
一個(gè)文件來了,我把它分成32段,每段放在一個(gè)磁盤里頭,往磁盤寫的時(shí)候呢同時(shí)做運(yùn)算,把糾刪碼算出來記到16塊硬盤里頭,最后32塊是實(shí)際的真正的數(shù)據(jù),還有16塊是糾刪碼,一共48個(gè)盤,這個(gè)系統(tǒng)允許小于等于16塊盤壞的情況下自動(dòng)把數(shù)據(jù)呢恢復(fù)出來。我們就是基于這個(gè)原理做了一個(gè)存儲(chǔ)器,一個(gè)高可靠、自維護(hù)的一個(gè)存儲(chǔ)器。
什么意思呢?就是說,這個(gè)系統(tǒng)大概是一個(gè)大冰箱這么大,42U的里邊192塊硬盤,我們要在生命周期內(nèi),就是五年,或者六年或者七年,這個(gè)系統(tǒng)可能要淘汰了,磁盤本身是有可能要出錯(cuò)的,但是里面存的數(shù)據(jù)肯定不會(huì)丟,我們覺得高可靠又大容量(大概1.5個(gè)PB),又做到了自維護(hù),數(shù)據(jù)不會(huì)丟。
我們采取兩個(gè)辦法實(shí)現(xiàn)上述目標(biāo)。
一是把計(jì)算的方程盡可能簡(jiǎn)單,那計(jì)算量就小了,另外一個(gè),真正算的時(shí)候,我們把多核的、并行的、分布的、流水的手段都把它采用上。
第二個(gè)例子。
我們最近做了一個(gè)分布式文件系統(tǒng),是為鵬城實(shí)驗(yàn)室“鵬城云腦”這臺(tái)機(jī)器做的,參加“世界IO 500比賽”的時(shí)候,去年6月我們得到冠軍,去年11月份我們也是冠軍,今年11月又得到冠軍,連續(xù)三次得到冠軍,而且,我們第一名的成績比第二名要快很多很多。
你可能要問了,你的文件系統(tǒng)有什么最大的特點(diǎn)?大概有三個(gè)關(guān)鍵技術(shù)。
第一個(gè),過去的文件系統(tǒng)有很多元數(shù)據(jù),元數(shù)據(jù)服務(wù)器只有一臺(tái),或者兩臺(tái),因此要成為瓶頸了。我們?nèi)∠械姆?wù)器,既是存數(shù)據(jù)又存元數(shù)據(jù),因此這么多機(jī)器都是元數(shù)據(jù)服務(wù)器了,瓶頸就沒有了。
第二個(gè)呢,過去大家用的分布式文件系統(tǒng)呢就調(diào)用操作系統(tǒng),一調(diào)用,要進(jìn)到內(nèi)部去了,要進(jìn)保護(hù)現(xiàn)場(chǎng),因此開銷比較大,我們這一次就不調(diào)用操作系統(tǒng),因此性能有很大的提高。
第三個(gè),我們說有Cache,Cache的好處是下一次訪問的時(shí)候不要再到硬盤去取數(shù)據(jù),但是它的問題是要做一致性,因此開銷很大,我們這次取消Cache,直接做。
這三個(gè)關(guān)鍵技術(shù)使得我們分布的文件系統(tǒng)性能非常高,我相信,可能最近一兩年我們一直會(huì)是冠軍。
因此我在想,我們?cè)跀?shù)據(jù)跟存儲(chǔ)系統(tǒng)方面,我們能夠做從0~1的創(chuàng)新工作,希望我們做數(shù)據(jù)和存儲(chǔ)方面的人一起努力做從0~1的工作,做到先進(jìn)的系統(tǒng)出來。
最后呢,再次預(yù)祝我們“2021中國數(shù)據(jù)與存儲(chǔ)峰會(huì)”圓滿舉行,謝謝大家!
(根據(jù)速記整理,未經(jīng)本人審定)