阿里云展臺-液冷解決方案模塊
服務器被浸泡在絕緣冷卻液中,與傳統(tǒng)風冷技術(shù)不同,散熱無需風扇、空調(diào)、制冷設施,節(jié)能效果卓越。阿里云實現(xiàn)了全球第一個全浸沒液冷的云計算數(shù)據(jù)中心,加之完備的運營監(jiān)控管理系統(tǒng),截止目前是全球唯一大規(guī)模部署的商用液冷集群。據(jù)數(shù)據(jù)估算,阿里巴巴浙江云計算仁和數(shù)據(jù)中心相比傳統(tǒng)風冷數(shù)據(jù)中心每年可節(jié)省3000萬度電。
(從左至右)阿里云智能基礎(chǔ)設施服務研發(fā)高級技術(shù)專家鐘楊帆、阿里云智能基礎(chǔ)設施資深專家郭懿群、阿里云智能基礎(chǔ)設施IDC研發(fā)高級技術(shù)專家任華華 接受媒體采訪
深耕浸沒式液冷技術(shù),構(gòu)筑綠色超級數(shù)據(jù)中心
浸沒式液冷用于云計算數(shù)據(jù)中心,最大的挑戰(zhàn)還是意識,或者說共識,國家對基礎(chǔ)設施的投入在突飛猛進地增長,大型、超大型數(shù)據(jù)中心在這兩年里會如雨后春筍般地建設起來。2018年7月,阿里云就在張北冬奧云數(shù)據(jù)中心開始部署液冷服務器集群,到今年9月,浙江云計算數(shù)據(jù)中心有了更大規(guī)模地部署。實際運營數(shù)據(jù)顯示,年均PUE值約為1.09。全浸沒式液冷數(shù)據(jù)中心的優(yōu)勢,首先是高可靠,其次是可實現(xiàn)更高密度的服務器部署,為未來可能出現(xiàn)的大計算做好技術(shù)儲備,第三是高可用,也就是具有普適性,適配包括計算、網(wǎng)絡、存儲在內(nèi)的所有相關(guān)產(chǎn)品,并可在全球任一氣象區(qū)實現(xiàn)極低PUE,第四是低噪聲,最后就是服務器性能的提升,CPU及相關(guān)部分的性能指標在液冷場景下更優(yōu)。
全浸沒式液冷應用于數(shù)據(jù)中心當然也有難點,阿里云專家表示:第一,數(shù)據(jù)中心整體架構(gòu)設計發(fā)生了非常大的變化。尤其是已建成的風冷數(shù)據(jù)中心改建成液冷時,某些指標不適配;其次,風冷服務器不能直接應用,需要去除風扇和電源改造。
對于綠色超級云計算數(shù)據(jù)中心的選址,阿里云首先要看用戶的業(yè)務需求,其次會考慮電力資源、網(wǎng)絡帶寬、當?shù)卣吆蜌庀髼l件,也會考慮整體TCO和可靠性。那么如何快速交付浸沒式液冷數(shù)據(jù)中心?阿里云浸沒式液冷技術(shù)的研發(fā)進展是什么樣的?就這個問題,阿里云智能基礎(chǔ)設施IDC研發(fā)高級技術(shù)專家任華華給出了回答。
第一關(guān)于已建成的風冷IDC怎樣適配液冷解決方案,首先需要關(guān)注建筑承重,如果結(jié)構(gòu)荷載原來是按照一噸每平米來設計,那么大概率是不需要做加固改造即可適配液冷;其次是電氣系統(tǒng),與風冷數(shù)據(jù)中心相比,只有末端機柜配電略有差異;最重要的是冷卻系統(tǒng)的快速搭建,阿里云液冷數(shù)據(jù)中心解決方案在設計之初就遵循了產(chǎn)品化和模塊化的思路,整套液冷系統(tǒng)像積木一樣易于快速現(xiàn)場組裝。
阿里云智能基礎(chǔ)設施資深專家郭懿群表示, 阿里云液冷數(shù)據(jù)中心解決方案從一開始的探索、到小規(guī)模實驗室、再到現(xiàn)在的大規(guī)模部署,技術(shù)在不斷迭代優(yōu)化,這離不開最重要的幾個維度,一是高密度機柜的支撐能力,比如單機柜可支撐30千瓦到100千瓦;其次是快速的部署能力,必須做到產(chǎn)品化設計與模塊化交付,第三是實際應用場景的運維體驗,提高運維的便利性與效率,阿里云在液冷技術(shù)的迭代過程中積累了從規(guī)劃設計到建設交付到便利運維的全鏈路實踐經(jīng)驗。
大型云計算數(shù)據(jù)中心離不開智能化運營管理,阿里云數(shù)據(jù)中心的智能化運營管理分為兩方面,第一是軟件系統(tǒng),IDC最基礎(chǔ)層的管理系統(tǒng)分為冷卻監(jiān)控系統(tǒng)和電力監(jiān)控系統(tǒng),冷卻系統(tǒng)本質(zhì)上是一個惰性系統(tǒng),冷卻監(jiān)控系統(tǒng)的智能化目標除了做到不間斷供冷還需要實現(xiàn)“按需供冷”,方法是在冷卻監(jiān)控系統(tǒng)上層架設AI系統(tǒng),通過運營大數(shù)據(jù)分析來實現(xiàn)供冷優(yōu)化,并同時做到“風險可預測,故障可分析”。阿里云液冷數(shù)據(jù)中心的智能化運營系統(tǒng),全面接入冷卻系統(tǒng)、電氣系統(tǒng)、以及IT系統(tǒng)的運營數(shù)據(jù),通過數(shù)據(jù)分析與AI算法幫助數(shù)據(jù)中心運營整體調(diào)優(yōu);第二就是工具層面,阿里云液冷數(shù)據(jù)中心引入智能機器人幫助運維工程師實現(xiàn)更換服務器與硬盤,部分巡檢工作也可由機器人代為執(zhí)行,智能化工具的應用大幅度提高了數(shù)據(jù)中心的運營效率。
攜手生態(tài)伙伴,引領(lǐng)數(shù)據(jù)中心市場變革
2020年1月,阿里巴巴聯(lián)合開放數(shù)據(jù)中心委員會ODCC向整個行業(yè)開源《浸沒式液冷數(shù)據(jù)中心技術(shù)規(guī)范》,自規(guī)范開源以來,用戶規(guī)模在不斷擴大。
阿里云研發(fā)了全浸沒式液冷數(shù)據(jù)中心的創(chuàng)新解決方案,不僅在政策層面滿足了國家對于綠色數(shù)據(jù)中心建設的節(jié)能要求,同時攜手服務器、IDC、網(wǎng)絡設備等相關(guān)合作伙伴,共同建設了液冷生態(tài)圈。
阿里云表示,從云計算應用場景與發(fā)展趨勢來分析,大規(guī)模通用計算的集約化部署非常適合浸沒式液冷數(shù)據(jù)中心的解決方案,傳統(tǒng)風冷數(shù)據(jù)中心將逐步向浸沒液冷數(shù)據(jù)中心過渡,液冷的比例會逐步擴大,未來將進入風&液冷并存的嶄新時代,這一切也依賴于行業(yè)共識、生態(tài)圈的逐步建立與產(chǎn)業(yè)鏈的不斷完善,阿里云相信,浸沒式液冷數(shù)據(jù)中心解決方案即將打開正向循環(huán),規(guī)模擴大與全生命周期成本優(yōu)化必然互相促進,為綠色云計算數(shù)據(jù)中心建設添磚加瓦。