熱量是電子設(shè)備的敵人。根據(jù)BCC,Inc.的“ReportGB-185R”,超過(guò)半數(shù)的電子故障由溫度造成,并且由于這些熱量源于不斷升高的晶體管密度和運(yùn)行速度,我們可以得出一個(gè)合乎邏輯的結(jié)論:在其他條件均相同的情況下,電子故障率也將不斷攀升。事實(shí)上,根據(jù)由IBM、HP、Dell、 Nortel、Cisco等組成的“行業(yè)冷卻協(xié)會(huì)”發(fā)布的信息,我們目前正處于大多數(shù)計(jì)算與通信電子設(shè)備熱密度(瓦特/平方英尺)增長(zhǎng)的最高峰(據(jù) UptimeInstitute(運(yùn)行時(shí)間協(xié)會(huì))的白皮書報(bào)告)。
對(duì)于2005-2007年前后曲線的平滑部分,我們不能據(jù)此認(rèn)為只需要冷卻在可預(yù)見(jiàn)的未來(lái)將不大會(huì)翻倍的熱負(fù)荷。這一預(yù)測(cè)基于協(xié)會(huì)起初對(duì)于摩爾定律的假設(shè),即每個(gè)芯片的晶體管數(shù)量在十八到二十四個(gè)月內(nèi)會(huì)翻一倍,而含有這些芯片的主熱驅(qū)動(dòng)器最終將會(huì)達(dá)到物理邊界。發(fā)表這個(gè)報(bào)告之后,戈登摩爾預(yù)計(jì)這一密度增長(zhǎng)趨勢(shì)至少還會(huì)再持續(xù)十年,因此我們現(xiàn)在可以預(yù)計(jì)處理通信設(shè)備的熱負(fù)荷截至2005年將會(huì)翻倍,達(dá)到極熱的6000+ 瓦/平方英尺,而服務(wù)器和存儲(chǔ)設(shè)備的熱負(fù)荷再過(guò)三年將會(huì)增加到2000瓦/平方英尺,六年后將會(huì)再增加1000瓦(保守假設(shè)晶體管數(shù)量增長(zhǎng)與溫度升高之間持續(xù)呈線性關(guān)系)。
有些不知名的聲音聲稱一些芯片制造商已經(jīng)能夠制造明顯更快且更強(qiáng)大的微處理器,但是由于缺乏應(yīng)對(duì)多余熱量的解決方案而無(wú)法將其投入實(shí)際應(yīng)用。因此,無(wú)論是在芯片級(jí)、電路板級(jí)、殼體級(jí)或機(jī)架/機(jī)柜級(jí),每一個(gè)為這些微處理器的冷卻做出貢獻(xiàn)的人員都會(huì)成為新一代計(jì)算能力的推動(dòng)者。溫度會(huì)以許多不同的方式影響IT 硬件,并且看似無(wú)關(guān)緊要的變化經(jīng)常會(huì)對(duì)性能和經(jīng)濟(jì)性產(chǎn)生重大影響。Arrhenius反應(yīng)導(dǎo)致電容器使用壽命和半導(dǎo)體性能在高溫作用下下降。有一個(gè)很靈驗(yàn)的經(jīng)濟(jì)法則,即環(huán)境溫度每升高10°C,IT硬件的長(zhǎng)期可靠性便會(huì)降低50%。事實(shí)上,美國(guó)軍方標(biāo)準(zhǔn)和Telcordia標(biāo)準(zhǔn)均將CPU使用壽命與溫度相關(guān)聯(lián)。有趣的是,我們注意到大多數(shù)CPU的工作溫度范圍上限均在95°C上下,但是MIL-HNBK-217和Bellcore數(shù)據(jù)卻表明,在此溫度水平下持續(xù)運(yùn)行將會(huì)使CPU壽命限制為一年或更短時(shí)間,而降低5°C竟然可以使設(shè)備的預(yù)期壽命延長(zhǎng)三倍。
溫度還會(huì)影響時(shí)鐘速度。對(duì)于1500MHz的CPU,溫度每降低10°C,時(shí)鐘速度便會(huì)升高2%。2%可能看似不是特別明顯,但是對(duì)于使用2RMU服務(wù)器專門處理大量事務(wù)的較大數(shù)據(jù)中心而言,喪失這一2%的額外事務(wù)處理能力,便意味著每二個(gè)半機(jī)架便需要另外購(gòu)買并安裝一臺(tái)本不必要的服務(wù)器。
了解高溫對(duì)于CPU的影響以及對(duì)IT硬件進(jìn)行更大程度冷卻可以獲得更高性能和經(jīng)濟(jì)利益的前景,我們見(jiàn)多識(shí)廣的機(jī)房經(jīng)理需要經(jīng)受住投入更多機(jī)房空調(diào)機(jī)組 (CRAC)或僅僅調(diào)低恒溫器的誘惑。在有些情況下,這些舉措僅僅是浪費(fèi);而在另外一些情況下,較冷的空氣實(shí)際上可能會(huì)導(dǎo)致產(chǎn)生更嚴(yán)重的散熱問(wèn)題。第一個(gè)推薦的措施是管理地板磚下的空氣移動(dòng),然后再管理冷空氣實(shí)際輸送到設(shè)備的方式。在這些措施執(zhí)行妥當(dāng)后,我們看到CRAC退出服務(wù),并且恒溫器的溫度升高,而冷卻效果卻得以改善。
正確的空氣管理取決于強(qiáng)制空氣對(duì)流熱傳導(dǎo)率冷卻設(shè)備的原理至少有著基本的理解。大多數(shù)的機(jī)架安裝設(shè)備采用風(fēng)扇冷卻。盡管有一些將空氣由一側(cè)移至另一側(cè)的獨(dú)立產(chǎn)品平臺(tái),但是通常情況下,還另設(shè)有10-30臺(tái)CFM軸流式風(fēng)扇以將空氣由前端抽出,然后排到后端。在設(shè)備內(nèi)部,熱傳導(dǎo)在微處理器(或其插座)或其他熱源與散熱器之間直接接觸的分子相互作用時(shí)發(fā)生。當(dāng)小型軸流式風(fēng)扇從設(shè)備前端抽出的空氣流過(guò)散熱器時(shí),便發(fā)生強(qiáng)制通風(fēng)對(duì)流熱傳導(dǎo)。此函數(shù)可以用以下方程表示:
Q=hA(Tw-Tf)
其中q=熱傳導(dǎo)率
h=對(duì)流熱傳導(dǎo)系數(shù)
A=表面積
Tw=表面溫度
Tf=流體溫度
歷史實(shí)踐和傳統(tǒng)觀念通常會(huì)關(guān)注將熱量由機(jī)柜中排出,并且糾結(jié)于熱點(diǎn)問(wèn)題(通常是機(jī)柜的后端上方),而強(qiáng)制通風(fēng)對(duì)流熱傳導(dǎo)原理卻清晰地表明:對(duì)于CPU性能和壽命的真正益處源于將最冷的空氣直接輸送到與微處理器相連的傳導(dǎo)表面。事實(shí)上,對(duì)于傳熱的動(dòng)態(tài)過(guò)程,輸送的空氣的溫度(Tf)是設(shè)備安裝人員與用戶唯一可以控制的變量,也是空氣流動(dòng)管理的目標(biāo)。
管理空氣流動(dòng)非常簡(jiǎn)單,就是使空氣流動(dòng)到需要的位置,而此過(guò)程的第一步是減少浪費(fèi)的冷送風(fēng)–從地下逃逸到?jīng)]有起到冷卻作用之處的空氣。 TritonTechnologies曾針對(duì)一百多個(gè)機(jī)房和數(shù)據(jù)中心中的地板冷卻空氣繪圖,并且發(fā)現(xiàn)在絕大多數(shù)的場(chǎng)所中,輸送到室內(nèi)的空氣有50-80% 為浪費(fèi)的冷送風(fēng)。減少浪費(fèi)的冷送風(fēng)好處多多。首先,密封住所有浪費(fèi)的冷送風(fēng)的逃逸點(diǎn)將會(huì)升高高架地板下的靜態(tài)壓力,從而提升需求點(diǎn)的氣流(CFM)。下圖說(shuō)明靜態(tài)壓力與輸送的冷卻空氣CFM之間的關(guān)系。
對(duì)于浪費(fèi)的冷送風(fēng)為50-80%的機(jī)房,高架地板下的壓力大約為0.01英寸水柱,其通過(guò)25%開(kāi)放的網(wǎng)孔裝每分鐘輸送大約200立方英尺的空氣。根據(jù)前文討論的“行業(yè)冷卻協(xié)會(huì)”繪制的熱負(fù)荷曲線,對(duì)于一個(gè)滿負(fù)荷機(jī)柜所需的冷卻要求而言,大約相當(dāng)于700瓦冷卻量的空氣輸送遠(yuǎn)遠(yuǎn)不夠。此外,由于一些典型機(jī)房的布局方式是讓兩到四臺(tái)機(jī)柜共用一個(gè)網(wǎng)孔磚輸送的空氣,因此200CFM氣流輸送的冷卻量少得可憐。充分密封住浪費(fèi)的冷送風(fēng)以將地板下的靜態(tài)壓力提升至0.025英寸水柱,流過(guò)高架地板的氣流因此可以由200CFM升高到350CFM,而不必對(duì)CRAC或空氣處理配置做任何改變,冷卻量幾乎翻倍,達(dá)到1.3kW左右。對(duì)于至少一個(gè)配備全部設(shè)備的機(jī)柜,此冷卻量現(xiàn)在也充足。但是,充分密封住浪費(fèi)的冷送風(fēng)以將地下的靜態(tài)壓力提升至0.1英寸水柱,流過(guò)高架地板的氣流將增大至700CFM且因此而產(chǎn)生的輸送冷卻量升高至2.8kW。
需要應(yīng)對(duì)的浪費(fèi)的冷送風(fēng)源主要有三個(gè),以實(shí)現(xiàn)最佳化靜態(tài)壓力的冷卻效果。冷卻空氣實(shí)際上可以從打開(kāi)的門逸出,然后通過(guò)出入點(diǎn)(電纜、電源和管道裝置)進(jìn)入高架地板下的空間內(nèi)。保持門關(guān)閉是簡(jiǎn)單的常識(shí)。但是,在地板下方,大多數(shù)的FM200消防系統(tǒng)將需要入口點(diǎn)已密封。否則,這些入口點(diǎn)應(yīng)以標(biāo)準(zhǔn)的全泡沫、織物或其他柔韌材料密封。另一個(gè)浪費(fèi)的冷送風(fēng)源是拆除的高架地板。同樣地,只要經(jīng)過(guò)一些信息化訓(xùn)練,在不必立即立即進(jìn)入地下時(shí),通常便會(huì)保持高架地板處于原位。最大的浪費(fèi)冷送風(fēng)源于無(wú)意、故意錯(cuò)誤布置高架地板開(kāi)孔的位置。
高架地板開(kāi)孔可以是開(kāi)設(shè)在高架地板上的任意孔(主要是電纜接入孔)或各種不同的標(biāo)準(zhǔn)格柵和穿孔,這些開(kāi)孔通常以對(duì)角布局部署在機(jī)房周圍。正如靜態(tài)壓力討論中所述,唯一的冷空氣逃逸應(yīng)位于需要冷空氣進(jìn)行強(qiáng)制對(duì)流以使熱源表面?zhèn)鳠崧矢叩奈恢?。因此,針?duì)人體舒適度而布設(shè)在露天作業(yè)區(qū)域周圍的網(wǎng)孔磚會(huì)有力地降低地下靜態(tài)壓力,降低需求點(diǎn)處的冷空氣CFM,降低傳熱率,并因此降低CPU性能。但是,更糟的是高架地板位于熱源附近。我曾見(jiàn)過(guò)一個(gè)正確布置在熱通道和冷通道中的數(shù)據(jù)中心,然后經(jīng)理抱怨走在機(jī)柜后面時(shí)感覺(jué)太熱,并且在這里通道中安裝網(wǎng)孔地板磚以幫助熱空氣流出。這個(gè)措施不僅可以降低輸送給安裝在機(jī)柜中的服務(wù)器和其他設(shè)備的有效冷卻量,還可以在受熱空氣返回待冷卻和重新流通的CRAC之前先對(duì)其進(jìn)行冷卻。CRAC效率受源空氣溫度和回流空氣溫度之間巨大差異的影響,并且常規(guī)的經(jīng)驗(yàn)法則表明:溫差每降低兩度,便會(huì)導(dǎo)致CRAC效率減少10%,這主要由于保持穩(wěn)定相對(duì)濕度所需要的能源所致。例如,溫差降低 2°F將會(huì)導(dǎo)致20噸的CRAC在一年內(nèi)產(chǎn)生2000加侖的水,以重新為除濕后的冷卻返程源空氣增濕。如果位于機(jī)柜后端的高架地板中的電纜接入端口處的電纜未密封,則是最嚴(yán)重的浪費(fèi)的冷送風(fēng)源。由于一個(gè)機(jī)柜一個(gè)開(kāi)孔,因此逃逸空氣的絕對(duì)數(shù)量將會(huì)比其他來(lái)源多出很多。此外,將最冷的空氣直接輸送到最暖的設(shè)備排氣,源空氣與返程空氣溫差的降低問(wèn)題整體將會(huì)變得更嚴(yán)重??梢圆捎萌魤|、全泡沫或特殊的面板隔斷里襯(配有毛刷)封閉電纜周圍。
僅僅增大靜態(tài)壓力還不能保證使冷卻空氣到最關(guān)鍵需求點(diǎn)的流動(dòng)實(shí)現(xiàn)最佳化–在高架地板下方輸送的空氣必須具有方向性且必須予以正確的管理。高架地板空氣管理產(chǎn)品與服務(wù)營(yíng)銷商TritonTechnologySystems已積累廣泛的實(shí)驗(yàn)法研究資料,其中指出不僅CRAC的氣流傾向于混合,但如果 CRAC的位置彼此成直角,則會(huì)導(dǎo)致冷卻空氣輸出模式以地上機(jī)房中返程空氣模式無(wú)法預(yù)測(cè)的角度偏轉(zhuǎn)。在最好的情況下,此模式會(huì)導(dǎo)致運(yùn)轉(zhuǎn)中的冷卻設(shè)備效率低下,從而導(dǎo)致成本的浪費(fèi);在最壞的情況下,會(huì)在機(jī)房中形成熱點(diǎn),從而危害計(jì)算設(shè)備的性能和數(shù)據(jù)的完整性。
“地板下空氣動(dòng)力學(xué)”圖表說(shuō)明這些空氣流動(dòng)模式的影響。不同顏色的區(qū)域表示地板下空氣流動(dòng)可能的路徑,機(jī)房地板上方的CRAC返程空氣更加可能會(huì)與每個(gè)CRAC箭頭所指示的預(yù)期輸送路徑相反。因此,CRAC-2可能會(huì)從B點(diǎn)獲得返程空氣,其中混合一些起初由CRAC-3輸送的返程空氣;反之,CRAC-4可能會(huì)從A點(diǎn)收到返程空氣,中混合一些起初由CRAC-3輸送的返程空氣,或者CRAC-1也可能會(huì)從A點(diǎn)收到返程空氣。假設(shè)當(dāng)冷卻空氣流過(guò)機(jī)柜中的所有設(shè)備時(shí),其溫度大約升高15°F,則可以預(yù)計(jì)會(huì)發(fā)生混亂,甚至重大事故。CRAC-1收到由A點(diǎn)熱點(diǎn)驅(qū)動(dòng)的86°返程空氣,并且其溫度會(huì)繼續(xù)下降以提供更多冷卻量,而未能傳輸給熱點(diǎn)。CRAC-4收到A點(diǎn)的86°返程空氣,其中混合一些CRAC-3路徑中的75°返程空氣,從而持續(xù)冷卻運(yùn)行。另一方面,CRAC-2收到來(lái)自B點(diǎn)的70°返程空氣,其通過(guò)來(lái)自CRAC-3部分75°的返程空氣。如果制冷恒溫設(shè)置在72°,可以想象,CRAC-2可能會(huì)關(guān)閉其制冷器,而僅僅將未冷卻的空氣吹入地上空間中。然而,環(huán)境空氣將會(huì)被輸送到房間內(nèi)最熱的位置。同時(shí),機(jī)敏的站點(diǎn)管理員會(huì)注意到熱點(diǎn)并進(jìn)一步迫使CRAC-1和/或CRAC-4溫度降低,從而不幸地導(dǎo)致降低流回到CRAC-2的回流空氣溫度,從而阻止冷卻量輸送到房間內(nèi)的最熱點(diǎn)。一旦走上這條路,就很難停下。
所有空氣與所有電纜以相同的并排方向排布的機(jī)房統(tǒng)稱為“熱通道-冷通道”布置,這種方式是使地板下方和上方的空氣流向可預(yù)測(cè)的最佳方式,能夠?yàn)镃RAC故障或服務(wù)停機(jī)保護(hù)提供一定的冗余量,并可以將電纜障礙作為擾動(dòng)、靜態(tài)壓力降低和CFM遺失的來(lái)源加以移除。
最終,當(dāng)?shù)匕逑蚂o態(tài)壓力實(shí)現(xiàn)最大化從而確保最佳的冷卻空氣CFM輸送,且數(shù)據(jù)中心中的CRAC和設(shè)備機(jī)柜的布置最理想時(shí),站點(diǎn)管理員必須避免這一常見(jiàn)的傾向:將最熱的設(shè)備放置在最靠近CRAC的位置。CRAC直接流出的空氣速度經(jīng)常可能會(huì)更高,而無(wú)法向上偏轉(zhuǎn),從而通過(guò)太靠近CRAC的網(wǎng)孔地板磚。事實(shí)上,根據(jù)文丘里效應(yīng)的物理學(xué)原理,流經(jīng)附近網(wǎng)孔地板磚的冷卻空氣速度可能很大,足以將室內(nèi)空氣和/或受熱的返程氣體抽到地板下空間中。因此,不僅靠近放置不能將冷卻量傳輸?shù)阶顭岬脑O(shè)備,而且還可能會(huì)導(dǎo)致傳輸?shù)秸麄€(gè)房間內(nèi)的冷卻空氣溫度上升。本文建議避免將網(wǎng)孔磚布置在太靠近CRAC的位置,并且盡可能將無(wú)源的連接設(shè)備布置最靠近在CRAC的位置,以使空間利用率最大化。
有效布置機(jī)房后,機(jī)柜/殼體自身也應(yīng)采用相同的原理。留意機(jī)柜內(nèi)的靜態(tài)壓力和氣流管理可以從對(duì)于布置機(jī)房以實(shí)現(xiàn)最大化冷卻的關(guān)注中獲得最大利益??梢圆煌姆绞綉?yīng)用這些原理,具體取決于總的環(huán)境和熱負(fù)荷。例如,如果浪費(fèi)的冷送風(fēng)消除措施已使足夠的CFM通過(guò)所有網(wǎng)孔地板磚,則機(jī)柜不應(yīng)有門,或者如果出于安全考慮需要配設(shè)門,則至少應(yīng)有60%網(wǎng)孔以保證最大的流量且不應(yīng)配有頂部安裝的風(fēng)扇組件。“足量CFM”將由網(wǎng)孔地板磚所支持的機(jī)柜中的熱負(fù)荷相對(duì)所輸送的冷卻量確定,可以將二者的關(guān)系繪制在“地板下靜態(tài)壓力和冷卻量之間的關(guān)系”線圖中。例如,700CFM將提供大概3kW的冷卻量,或1.5kW/機(jī)柜的冷卻量。頂部安裝風(fēng)扇組件可能會(huì)不良的后果,甚至?xí)试S返程空氣與冷通道中的源空氣發(fā)生一定程度的混合,因此而造成的溫度升高會(huì)造成安裝設(shè)備中的熱傳導(dǎo)率相對(duì)下降。如果機(jī)柜后端的布線障礙或其他問(wèn)題使得小型服務(wù)器風(fēng)扇(10-30CFM)難以將熱空氣排出機(jī)柜,則將空氣直接排向熱通道并使機(jī)柜處于源空氣與返程空氣之間的后門安裝式風(fēng)扇將會(huì)保持系統(tǒng)更高效,更有效力的運(yùn)行。
另一方面,如果靜態(tài)壓力的改善不足以通過(guò)冷通道中心的網(wǎng)孔磚輸送CFM,以為機(jī)柜中的熱負(fù)荷提供所需的冷卻量,那么可能需要一個(gè)更有針對(duì)性的方法,將空氣直接輸送到機(jī)柜中,然后再采用一些必要的助推工具配送空氣。在此種情況下,對(duì)于裝有進(jìn)氣的機(jī)架安裝設(shè)備前端的空間,靜態(tài)壓力再次顯得很重要。可以通過(guò)采用固體面板前門(但可接受周邊通風(fēng),有時(shí)也是最可取的)、在設(shè)備間未用的RMU空間中加設(shè)盲板以及在設(shè)備和機(jī)柜側(cè)板間采用一些密封措施,增大靜態(tài)壓力。因此,即使機(jī)柜連接在一起(通常沒(méi)有側(cè)板),兩個(gè)機(jī)柜最好至少也要共用一個(gè)側(cè)板。除了使機(jī)柜前端三立方英尺空間內(nèi)的空氣靜態(tài)壓力最大化,此密封措施還可以防止機(jī)柜后端的返程廢氣再次流通或在被抽送到服務(wù)器中之前與源冷卻空氣相混合。頂部安裝風(fēng)扇可以部署在此種配置中,因?yàn)槠漭敵霾粫?huì)與設(shè)備輸入空氣相混合。 “增壓”由旨在將可用的最冷空氣直接對(duì)準(zhǔn)最關(guān)鍵使用點(diǎn)的機(jī)構(gòu)提供。這些產(chǎn)品采用離心式鼓風(fēng)機(jī)將冷卻的地板下空氣通過(guò)噴嘴引導(dǎo)至設(shè)備前端,或采用風(fēng)扇將空氣引導(dǎo)至充滿填充材料的門,然后再通過(guò)通風(fēng)口或擋板將空氣引導(dǎo)至機(jī)柜中的需求點(diǎn),從而實(shí)現(xiàn)這一目標(biāo)。
這些針對(duì)性方法的有效性顯示在兩個(gè)電子機(jī)柜氣流分布計(jì)算流體動(dòng)力學(xué)模型的對(duì)比圖中。“典型的服務(wù)器制造商規(guī)格”模型顯示針對(duì)機(jī)柜底部的預(yù)期冷卻量,以及機(jī)柜頂部的反直觀冷卻量。上面的冷卻源于頂部安裝的風(fēng)扇通過(guò)高氣流網(wǎng)格式前門頂部吸入。當(dāng)頂部安裝的風(fēng)扇未能從設(shè)備前端抽取大量空氣時(shí),機(jī)柜中心仍會(huì)有熱點(diǎn),因?yàn)榫W(wǎng)格式柜門具有的阻力比機(jī)柜中的設(shè)備要少。另一方面,地板下空氣溫度與設(shè)備進(jìn)氣口正對(duì)的環(huán)境溫度之間的差異很大程度上是由于針對(duì)性空氣輸送所造成的。
將空氣吹入機(jī)柜底部或從機(jī)柜頂部抽吸氣體的高功率風(fēng)扇不符合本文所介紹的原理。例如,此類風(fēng)扇通常會(huì)同時(shí)從機(jī)柜的正面和背面抽吸或吹送冷卻空氣,因此會(huì)冷卻廢氣(返程氣體),降低源空氣與返程氣體之間的溫差以及降低CRAC的效率。
數(shù)據(jù)中心設(shè)備的冷卻方案不需要是神秘的技法,但是經(jīng)常需要超乎常識(shí)以外的認(rèn)知,尤其因?yàn)楦呒艿匕宕u的下面發(fā)生許多我們看不到的活動(dòng)。切記以下要點(diǎn):僅將冷空氣用在設(shè)備確實(shí)需要之處;避免將“用過(guò)的”返程空氣與源冷卻空氣相混合;以同一方向,彼此平行的方式布設(shè)空氣與地板下的電纜,使環(huán)境顯得簡(jiǎn)單且可以預(yù)測(cè);最本質(zhì)的東西是輸送有效的冷卻量,而不僅僅是排掉熱空氣。