下面是各種不同工作負載的硬件配置清單,包括我們最初的“起點”硬件建議:

· 輕型處理配置(1U/machine):兩個四核CPU,8GB內(nèi)存,4個磁盤驅(qū)動器(1TB或2TB)。注意CPU密集型的工作,如自然語言處理,在數(shù)據(jù)處理之前加載大型模型到RAM的,應(yīng)配置2GB內(nèi)存每CPU核,而不是1GB內(nèi)存每CPU核。

· 平衡計算配置(1U/machine):兩個四核CPU,16到24GB內(nèi)存,4個磁盤驅(qū)動器直連主板控制器(1TB或2TB)。這些往往在一個單一的2U機柜有兩個主板和8個驅(qū)動器的。

· 重存儲配置(2U/machine):兩個四核CPU,16到24GB的內(nèi)存,12個磁盤驅(qū)動器(1TB或2TB)。這種類型機器的功耗,閑置狀態(tài)200W左右,高活躍時350W。

· 計算密集配置(2U/machine):兩個四核CPU,48-72GB的內(nèi)存,8個磁盤驅(qū)動器(1TB或2TB)。這些往往在大內(nèi)存駐留模型和大量索引數(shù)據(jù)緩存組合時經(jīng)常使用。

其他硬件方面的考慮

當(dāng)我們遇到應(yīng)用程序產(chǎn)生大量的中間數(shù)據(jù),我們建議每臺機器擁有一個雙端口以太網(wǎng)卡或雙通道以太網(wǎng)卡提供2Gbps。對于那些已經(jīng)轉(zhuǎn)移到10千兆以太 網(wǎng)或Infiniband的客戶,這些解決方案可以用來解決網(wǎng)絡(luò)密集型工作負載。如果你在考慮切換到10千兆以太網(wǎng),要先確定你的操作系統(tǒng)和BIOS是兼 容的。

當(dāng)計算內(nèi)存需求,Java管理虛擬機占用到10%的因素。我們建議配置Hadoop,使用嚴(yán)格的堆大小限制,以避免內(nèi)存交換到磁盤。交換大大影響MapReduce作業(yè)性能,可以加大RAM配置以避免這種情況。

同樣重要的是優(yōu)化RAM的內(nèi)存通道帶寬。例如,當(dāng)使用雙通道內(nèi)存,每臺機器應(yīng)該配置DIMM組。對于三通道內(nèi)存,每臺機器應(yīng)該配置三組DIMM。這意味著一臺機器可能配置18GBs(9x2GB)內(nèi)存,而不是16GBs(4x4GB)。

結(jié)論

采購合適的Hadoop集群硬件需要基準(zhǔn)和精心策劃,充分理解工作負載。然而,Hadoop集群通常是異構(gòu)環(huán)境,我們建議起步時采用平衡配置方案來部署初始硬件。

分享到

huanghui

相關(guān)推薦