百度在世界互聯(lián)網(wǎng)企業(yè)中均處于領(lǐng)先地位,來自于其優(yōu)秀的底層IT建設團隊
陳尚義向記者談到,百度每天面對海量的大數(shù)據(jù),其系統(tǒng)產(chǎn)生的海量日志達到百PB級,需要數(shù)萬臺服務器存儲。并且隨著網(wǎng)頁資源增加和搜索質(zhì)量提升,網(wǎng)頁和超鏈數(shù)據(jù)將隨之急劇增加。因此百度數(shù)據(jù)呈現(xiàn)海量、高增長,結(jié)構(gòu)化和非結(jié)構(gòu)化并存,記錄大小差距巨大,數(shù)據(jù)一致性強弱不一,數(shù)據(jù)冷熱不均,突發(fā)事件常導致數(shù)據(jù)訪問波峰等特點。
針對以上問題,百度通過自建數(shù)據(jù)中心,開發(fā)了自己的大數(shù)據(jù)存儲系統(tǒng),并使用了多項新技術(shù)。例如,開發(fā)網(wǎng)頁更新模型、優(yōu)化數(shù)據(jù)存儲和訪問、定制Flash、多副本存儲、自主知識產(chǎn)權(quán)的復制協(xié)議、數(shù)據(jù)分治策略、采用拆片存儲技術(shù)、運用局部更新大記錄的策略和三層數(shù)據(jù)存儲模型等。
“可以說,數(shù)據(jù)中心是百度業(yè)務的載體,它支撐著海量數(shù)據(jù)存儲、云平臺和搜索社區(qū)等,所以百度更加關(guān)注建設云數(shù)據(jù)中心,用云的核心驅(qū)動力來支撐業(yè)務規(guī)模發(fā)展。我們自建的數(shù)據(jù)中心規(guī)模目前達到1000PB,計算能力是100萬CPU核。”陳尚義表示,“百度的單體十萬臺服務器的數(shù)據(jù)中心,PUE每降低0.1,一年就可為百度節(jié)省上千萬的成本。所以,打造自我的綠色高效數(shù)據(jù)中心,大數(shù)據(jù)時代將很好應對節(jié)能環(huán)保、低碳的要求。”
傳統(tǒng)數(shù)據(jù)中心與百度的云計算數(shù)據(jù)中心在性能上的差異
百度綠色數(shù)據(jù)中心的主要設計理念
百度數(shù)據(jù)中心是如何“瘦身”高效的?陳尚義介紹,百度綠色數(shù)據(jù)中心設計理念是綠色為整體,從源頭開始節(jié)能。首先解決的是設備能耗問題,其中包括IT設備和輔助設備能耗問題。其次是單機的定制化量體裁衣,采用集中散熱、集中供電、高效部件等方法。同時,采用SSD解決服務器的瓶頸,降低服務器數(shù)量,節(jié)約了30%的服務器。另外,百度在數(shù)據(jù)中心工作上,采取白天以商業(yè)業(yè)務為主、數(shù)據(jù)處理為輔,夜晚側(cè)重數(shù)據(jù)處理為主的原則,利用早晚的用戶使用習慣,來很好分配大數(shù)據(jù)量的工作時間,進而實現(xiàn)了節(jié)能高效。
陳尚義最后表示,百度未來仍將一如既往地引領(lǐng)大數(shù)據(jù)存儲和處理的發(fā)展方向。