云計算已經(jīng)成為,IT業(yè)發(fā)展的必然趨勢。而云計算對于搜索引擎來說是最自然不過,或者說最順理成章應(yīng)該應(yīng)用的一項技術(shù)。在國內(nèi)百度做為最權(quán)威的搜索引擎公司,每天需要處理幾PB的數(shù)據(jù),于是對于云計算來說數(shù)據(jù)中心有著密不可分的聯(lián)系。

數(shù)據(jù)中心面臨的一些問題。

第一個是規(guī)模太大,我們會看到當(dāng)你一個單的節(jié)點數(shù)據(jù)中心超過10萬臺的時候,你的日處理數(shù)據(jù)10P級的時候,對你數(shù)據(jù)中心的挑戰(zhàn)是非常大的。

第二個是我們自己要進(jìn)行標(biāo)準(zhǔn)化和模塊化的設(shè)計,由于這個規(guī)模太大了,我不可能一次性啟用10萬臺,需要用模塊化啟用。

第三個是通過高功率的密度,降低功耗,使得總體運行TCO成本最佳。

在供電系統(tǒng)上,其實最主要的目的是減少轉(zhuǎn)換的功耗,大家知道大部分傳統(tǒng)的數(shù)據(jù)中心都是兩路進(jìn)來,通過UPS,大概功耗是10個損壞損失。我們采用了UPS ECO模式運行。用HVDC offline供電,出現(xiàn)問題的時候高壓直流設(shè)備供電。可能會減少5-6個轉(zhuǎn)換效率??照{(diào)系統(tǒng)上,免費冷卻,氣流組織優(yōu)化,數(shù)據(jù)中心大部分電是用來制冷的,如果能提高工作溫度,像25度提高到30度,甚至更高,你的數(shù)據(jù)中心就不需要這么多的制冷量,這樣的話就能降低電源的消耗。但同時帶來一個問題,你的服務(wù)器設(shè)計一定要耐高溫,要配合你的服務(wù)器定制。另外現(xiàn)在業(yè)界比較領(lǐng)先的水冷背板,引到服務(wù)器內(nèi)部的芯片級冷卻技術(shù)。

大規(guī)模的數(shù)據(jù)中心在建設(shè)過程當(dāng)中,特別是基礎(chǔ)建設(shè)過程當(dāng)中會面臨很多的問題。比如自然環(huán)境的問題,大家有可能去過美國的數(shù)據(jù)中心,為什么Facebook可以建這么低的數(shù)據(jù)中心,那個地方的空氣環(huán)境比較好,溫度和濕度都很好,都是非常適合的,在國內(nèi)找這樣的地方相對來說不是那么容易,因為他很難讓多個因素都結(jié)合在一起。比如有的地方濕度和溫度都很好,空氣質(zhì)量也很好,但是面臨著基礎(chǔ)設(shè)施條件比較匱乏,總供電能力不足,以及運營商的傳輸,光網(wǎng)絡(luò)并不好。或者光網(wǎng)絡(luò)由于當(dāng)?shù)厝瞬刨Y源短缺,在一個偏遠(yuǎn)地區(qū),一個干線網(wǎng)絡(luò)斷了,上海華東這個地方一個光纜掉了,運營商對他的搶修和修復(fù)時間是完全不一樣的。另外一個新的技術(shù)存在產(chǎn)業(yè)上下游配套的問題。

在以前我們無論是做數(shù)據(jù)中心基礎(chǔ)建設(shè),做網(wǎng)絡(luò),做服務(wù)器的時候,每個層面都在考慮自己的需求。比如數(shù)據(jù)中心會考慮我的配電系統(tǒng)怎么樣,我的制冷怎么樣,我的空氣組織怎么樣,我一定要做到萬無一失,上層怎么做我不管。同樣,服務(wù)器做的時候也是同樣的考慮。今天做云計算,當(dāng)我們把存儲和計算資源都集中起來之后,我們完全可以通盤考慮這樣的事情,我們的數(shù)據(jù)中心,我們的服務(wù)器,我們的網(wǎng)絡(luò),還有軟件系統(tǒng),它實際上是一個整體,如果這個整體能夠配合起來,我們在任何一個環(huán)節(jié)可能并不需要,或者一定不需要那么多的冗余,那么多的資源的浪費。這樣的話不但提高效率,而且能夠大幅的降低成本。也就是說,在每個層面都有自己可以工作的事情,舉一個例子,如果我的網(wǎng)絡(luò)冗余,我的服務(wù)做到好的部署,同樣做到數(shù)據(jù)不丟失和無損失。如果我上層服務(wù)器設(shè)計非常合理的話,我是耐高溫的服務(wù)器,我的數(shù)據(jù)中心就不需要這么大的功耗把我的電力能耗都放到制冷上面,你通盤考慮的時候就會發(fā)現(xiàn)這件事情變得非常簡單。

最后,不斷反復(fù)反復(fù)強調(diào)我們的觀點。一定是你的軟件要去適應(yīng)硬件,一個出色的軟件架構(gòu)師,或者是一個出色的硬件架構(gòu)師,是非常清楚的了解什么是當(dāng)今主流的非常通用的硬件架構(gòu)基礎(chǔ)上進(jìn)行他的系統(tǒng)和軟件設(shè)計。當(dāng)你通過軟件來進(jìn)行系統(tǒng)容錯的時候你會發(fā)現(xiàn)你的平臺變得非常非??梢浦?,非常非常好擴展。

網(wǎng)絡(luò)和系統(tǒng)平臺的一些思考和實踐。

一提到網(wǎng)絡(luò)很多人可能會想到網(wǎng)絡(luò)的話運營商一定是最好的,運營商一定是最強和設(shè)計最好的,但是互聯(lián)網(wǎng)的數(shù)據(jù)中心和運營商的傳統(tǒng)網(wǎng)絡(luò)是不一樣的。因為大家可以看到,運營商在從事云計算數(shù)據(jù)中心的時候其實也是不同以往建網(wǎng)絡(luò)的思路。你可以看到,他的網(wǎng)絡(luò)是多技術(shù)的,他可以去賣給用戶,你能看到大部分傳統(tǒng)電信運營商在傳統(tǒng)階段,大部分是帶寬的收入,為什么?因為他要使自己的網(wǎng)絡(luò)很火,他要做國際的VP業(yè)務(wù),他要把帶寬帶給用戶,他的網(wǎng)絡(luò)特點是多技術(shù)靈活,因為他是一線產(chǎn)品,他直接給公司帶來收入。而我們說互聯(lián)網(wǎng)的數(shù)據(jù)中心他并不給公司直接帶來收入,它僅僅是一個公司底層的平臺,它是為了承擔(dān)我們很多業(yè)務(wù)、很多流量的平臺。對互聯(lián)網(wǎng)數(shù)據(jù)中心來講,我們認(rèn)為互聯(lián)網(wǎng)數(shù)據(jù)中心的網(wǎng)絡(luò)它的目的就是要最佳的去支持和促進(jìn)公司產(chǎn)品和業(yè)務(wù)的快速發(fā)展。因為互聯(lián)網(wǎng)發(fā)展是很快的,產(chǎn)品是需要快速的推出和迭代的。

在今天可能很多人會講網(wǎng)絡(luò)穩(wěn)定性的問題。在今天云計算互聯(lián)網(wǎng)數(shù)據(jù)中心的領(lǐng)域我們是這么認(rèn)為的,網(wǎng)絡(luò)穩(wěn)定性根本不取決于網(wǎng)絡(luò)本身,因為一個整體的概念,數(shù)據(jù)中心的基礎(chǔ)設(shè)施,網(wǎng)絡(luò)、服務(wù)器、應(yīng)用系統(tǒng),是個整體。很多人反應(yīng)是,這個整體是不是木桶效應(yīng),誰最短誰是瓶頸。在今天我不這么看,我認(rèn)為在整個整體里面取決于穩(wěn)定性的核心還是系統(tǒng),因為在今天很多做傳統(tǒng)的電信行業(yè)會知道,以前的程控設(shè)備,到后來的SDH設(shè)備,穩(wěn)定性都是非常高的,可以說硬件的穩(wěn)定性就是我心中的穩(wěn)定性。在很多年前毫無疑問,大家往IT設(shè)備上轉(zhuǎn)型,包括現(xiàn)在的語音設(shè)備,往IT設(shè)備上轉(zhuǎn)型,其實遠(yuǎn)遠(yuǎn)低于程控設(shè)備的,你不可能要求硬件的可靠性決定網(wǎng)絡(luò)的可靠性,更多取決于你的系統(tǒng)設(shè)計是不是合理,你的容錯是不是合理。這是很早之前業(yè)界推出分布式的存儲,分布式的表格輸出等等,他會使得應(yīng)用軟件對于整個系統(tǒng)的容錯,起到很至關(guān)重要的作用。

最后也是希望在未來云計算的浪潮中,行業(yè)內(nèi)部多分享,行業(yè)之間多交流,行業(yè)與產(chǎn)業(yè)多對話。

分享到

zhaohang

相關(guān)推薦