▲百度大數(shù)據(jù)存儲體系
陳尚義還透露,為應(yīng)對上百PB的數(shù)據(jù),滿足諸多近乎苛刻的要求,百度采取了一些措施。包括開發(fā)網(wǎng)頁更新模型,將對磁盤的隨機寫轉(zhuǎn)化為批量的順序?qū)?,提高?shù)據(jù)的寫入速度,縮短了網(wǎng)頁數(shù)據(jù)的更新周期,提高搜索引擎等產(chǎn)品時效果性。
此外,還包括對涉及數(shù)據(jù)存儲和訪問的各個方面進(jìn)行全局優(yōu)化。對訪問模式采用數(shù)據(jù)索引、緩存熱點數(shù)據(jù)、外存預(yù)讀、IO緩存等技術(shù)手段,降低在線訪問的延遲,提高系統(tǒng)的吞吐量;未來,百度還將開發(fā)跨數(shù)據(jù)中心的存儲系統(tǒng)。