帶著這些問(wèn)題,DOIT總編宋家雨特邀Supermicro北京公司總經(jīng)理李運(yùn)杰進(jìn)行了專訪。
以下為采訪實(shí)錄:
宋家雨:液冷解決方案和風(fēng)冷解決方案各有什么優(yōu)勢(shì)?
李運(yùn)杰:在人工智能、大型語(yǔ)言模型(LLMs)和高性能計(jì)算(HPC)快速發(fā)展的背景下,液冷解決方案因其高效性在某些應(yīng)用場(chǎng)景中已成為首選。然而,對(duì)于無(wú)法采用液冷方案的數(shù)據(jù)中心,風(fēng)冷解決方案仍然是一個(gè)理想的選擇。Supermicro在2024年臺(tái)北國(guó)際電腦展(COMPUTEX 2024)上展示的SuperCluster產(chǎn)品,提供了風(fēng)冷和液冷兩種技術(shù)選項(xiàng),以滿足不同應(yīng)用場(chǎng)景的需求,幫助客戶最大化運(yùn)營(yíng)效率。
液冷解決方案的優(yōu)勢(shì)在于其顯著的高效率,特別是在處理大型語(yǔ)言模型、生成式AI和云原生應(yīng)用等高密度和高功率系統(tǒng)時(shí)。與傳統(tǒng)風(fēng)冷解決方案相比,Supermicro的液冷技術(shù)可以減少數(shù)據(jù)中心多達(dá)40%的電力消耗,使其成為高性能計(jì)算需求場(chǎng)景(如人工智能、機(jī)器學(xué)習(xí)和大規(guī)模數(shù)據(jù)處理)的理想選擇。此外,液冷技術(shù)還允許更高密度的硬件配置,這對(duì)于空間受限的數(shù)據(jù)中心來(lái)說(shuō)非常有利,尤其是在需要在有限物理空間內(nèi)實(shí)現(xiàn)大量計(jì)算能力的應(yīng)用場(chǎng)景中。液冷技術(shù)更適合于持續(xù)運(yùn)行的服務(wù)器,尤其是在高性能計(jì)算需求的場(chǎng)景下。
風(fēng)冷解決方案則適用于通用型服務(wù)器和中等散熱需求的應(yīng)用。它通常用于較小的數(shù)據(jù)中心或標(biāo)準(zhǔn)IT基礎(chǔ)設(shè)施中,這些場(chǎng)景可能不需要高密度計(jì)算,或者系統(tǒng)并非設(shè)計(jì)為全天候滿負(fù)荷運(yùn)行。風(fēng)冷技術(shù)因其成本效益和通用性,在這些應(yīng)用場(chǎng)景中提供了一個(gè)理想的解決方案。
總結(jié)來(lái)說(shuō),Supermicro的SuperCluster產(chǎn)品通過(guò)提供液冷和風(fēng)冷兩種選項(xiàng),使客戶能夠根據(jù)其業(yè)務(wù)需求和數(shù)據(jù)中心的特定條件選擇最合適的冷卻技術(shù)。無(wú)論是追求高效率和節(jié)能的高性能計(jì)算場(chǎng)景,還是需要成本效益和通用性的中等負(fù)載應(yīng)用,Supermicro都能提供定制化的解決方案,以優(yōu)化客戶的運(yùn)營(yíng)效率。
宋家雨:GPU性能提升帶來(lái)的服務(wù)器功耗一路飆升,對(duì)此需要在設(shè)計(jì)服務(wù)器時(shí)采取哪些針對(duì)性的設(shè)計(jì)?Supermicro是怎么做的?
李運(yùn)杰:面對(duì)GPU性能提升帶來(lái)的功耗挑戰(zhàn),Supermicro采取了一系列系統(tǒng)級(jí)和機(jī)架級(jí)的優(yōu)化措施。
就系統(tǒng)級(jí)優(yōu)化而言,Supermicro致力于將服務(wù)器工作負(fù)載與GPU設(shè)計(jì)提升相匹配,以減少應(yīng)用運(yùn)行時(shí)的功耗。我們注意到,隨著GPU技術(shù)的迭代,每一代GPU都能在相同功率下完成更多的工作量。因此,我們精心選擇整套系統(tǒng),包括CPU和GPU的組合,確保在功耗預(yù)算內(nèi)滿足服務(wù)水平協(xié)議(SLA)的要求。此外,我們通過(guò)選擇針對(duì)特定工作負(fù)載優(yōu)化的服務(wù)器,配備執(zhí)行相應(yīng)任務(wù)所需的特定技術(shù),從而提高能源效率。使用共享部分組件的多節(jié)點(diǎn)服務(wù)器或刀片服務(wù)器,也是我們降低能耗的有效策略。
在機(jī)架層面,Supermicro的解決方案專注于實(shí)現(xiàn)最佳電力分配和冷卻效率。我們使用高效電源和先進(jìn)冷卻系統(tǒng),確保整個(gè)機(jī)架的能效。例如,我們的液冷機(jī)架采用了自主設(shè)計(jì)的冷卻液分配單元(CDU),該單元有效管理冷卻液的循環(huán),從高密度部署的服務(wù)器中高效散熱,顯著提高了電源使用效率(PUE),并通過(guò)減少冷卻相關(guān)的能源費(fèi)用來(lái)降低總成本(TCO)。Supermicro還提供預(yù)配置的機(jī)架級(jí)人工智能(AI)解決方案,這些方案專為優(yōu)化能效而設(shè)計(jì)。它們采用了既優(yōu)化性能又節(jié)能的組件,支持多種電源配置(208、230、415或480VAC)和集成48VDC的設(shè)施,進(jìn)一步提升了數(shù)據(jù)中心運(yùn)營(yíng)的能效。
特別值得一提的是,Supermicro的液冷技術(shù),包括直抵芯片冷卻和浸沒(méi)式冷卻,顯著降低了冷卻IT設(shè)備所需的能耗。液體的熱傳遞性能優(yōu)于空氣,使得使用液冷系統(tǒng)的冷卻成本可能僅為氣冷系統(tǒng)的十分之一。我們的液冷機(jī)架針對(duì)高冷卻液溫度進(jìn)行了優(yōu)化,提供了卓越的能效,能夠?qū)?shù)據(jù)中心的能耗降低高達(dá)40%。
Supermicro通過(guò)這些創(chuàng)新的優(yōu)化措施,不僅滿足了日益增長(zhǎng)的GPU性能需求,同時(shí)也確保了服務(wù)器設(shè)計(jì)的能效和可持續(xù)性。
宋家雨:優(yōu)化服務(wù)器架構(gòu)設(shè)計(jì)的好處是什么?
李運(yùn)杰:優(yōu)化服務(wù)器設(shè)計(jì)對(duì)性能、能源效率、運(yùn)營(yíng)成本和環(huán)境可持續(xù)性具有顯著影響,帶來(lái)了各種好處。因此,通過(guò)持續(xù)優(yōu)化服務(wù)器設(shè)計(jì),可以在實(shí)現(xiàn)業(yè)務(wù)和環(huán)境目標(biāo)方面達(dá)到雙贏的結(jié)果。例如,Supermicro的創(chuàng)新服務(wù)器設(shè)計(jì)支持多種CPU和GPU,并可輕松更換組件,從而減少了將整個(gè)服務(wù)器報(bào)廢而產(chǎn)生的電子廢棄物。這種設(shè)計(jì)通常被稱為解耦設(shè)計(jì)。此外,由于客戶現(xiàn)在可以升級(jí)某些組件而不是整臺(tái)服務(wù)器,升級(jí)服務(wù)器所需的開(kāi)支也將低于以往。
宋家雨:針對(duì)中國(guó)國(guó)內(nèi)市場(chǎng),Supermicro的策略是什么?
李運(yùn)杰:人工智能的廣泛應(yīng)用擴(kuò)展了服務(wù)器市場(chǎng),吸引了更多中國(guó)公司參與競(jìng)爭(zhēng),并推動(dòng)了市場(chǎng)增長(zhǎng)。此外,AI技術(shù)的持續(xù)發(fā)展催生了新的服務(wù)器應(yīng)用場(chǎng)景和需求,例如邊緣計(jì)算和深度學(xué)習(xí)訓(xùn)練,進(jìn)一步推動(dòng)了服務(wù)器技術(shù)領(lǐng)域的創(chuàng)新和發(fā)展。
宋家雨:綠色節(jié)能技術(shù)會(huì)成為Supermicro市場(chǎng)競(jìng)爭(zhēng)優(yōu)勢(shì)嗎?
李運(yùn)杰:在全球變暖和氣候挑戰(zhàn)日益嚴(yán)峻的今天,綠色節(jié)能技術(shù),即綠色計(jì)算,已成為Supermicro的一項(xiàng)重要競(jìng)爭(zhēng)優(yōu)勢(shì)。隨著人工智能和大型語(yǔ)言模型的迅速發(fā)展,服務(wù)器的能耗問(wèn)題也日益凸顯。在這樣的背景下,找到計(jì)算能力需求與能源消耗之間的平衡點(diǎn)變得至關(guān)重要。
Supermicro致力于通過(guò)其綠色技術(shù),尤其是最新的液冷技術(shù),幫助客戶實(shí)現(xiàn)業(yè)務(wù)目標(biāo)與環(huán)境、社會(huì)及治理(ESG)的雙重目標(biāo)。我們的液冷機(jī)架經(jīng)過(guò)特別優(yōu)化,以適應(yīng)不同的溫度條件,從而顯著提升了能源效率。這一創(chuàng)新技術(shù)能夠?qū)?shù)據(jù)中心的電力使用降低40%,幫助客戶大幅度減少運(yùn)營(yíng)成本。
這些技術(shù)的優(yōu)勢(shì)不僅體現(xiàn)在降低運(yùn)營(yíng)成本和減少環(huán)境影響上,它們還滿足了市場(chǎng)對(duì)環(huán)保IT基礎(chǔ)設(shè)施的日益增長(zhǎng)的需求。Supermicro通過(guò)引領(lǐng)綠色計(jì)算的潮流,吸引了越來(lái)越多注重可持續(xù)發(fā)展的合作伙伴。我們致力于幫助客戶實(shí)現(xiàn)其環(huán)保目標(biāo),共同推動(dòng)一個(gè)更加綠色、高效的計(jì)算未來(lái)。
宋家雨:對(duì)于CXL、EDSFF SSD,特別是E1.L、E3.L,從服務(wù)器設(shè)計(jì)的角度,Supermicro如何看待?有沒(méi)有一些針對(duì)性的部署?
李運(yùn)杰:CXL和EDSFF技術(shù)正在重新定義服務(wù)器市場(chǎng)的未來(lái)。EDSFF建立了一種我們認(rèn)為在未來(lái)將占主導(dǎo)地位的接口形態(tài),而CXL提供了一種通過(guò)CXL內(nèi)存擴(kuò)展器增加服務(wù)器內(nèi)存容量的新方法。
Supermicro在行業(yè)內(nèi)率先推出了支持EDSFF的服務(wù)器和存儲(chǔ)系統(tǒng)。我們提供業(yè)界最廣泛的NVMe、混合NVMe和SATA系統(tǒng),EDSFF的加入進(jìn)一步鞏固了我們?cè)贜VMe市場(chǎng)的領(lǐng)導(dǎo)地位。這些優(yōu)化的NVMe驅(qū)動(dòng)器能夠在1U的緊湊空間內(nèi)支持多達(dá)32個(gè)熱插拔驅(qū)動(dòng)器,非常適合執(zhí)行高性能工作負(fù)載或?yàn)镮OPS優(yōu)化的存儲(chǔ)專用軟件。在高性能存儲(chǔ)產(chǎn)品系列中,Supermicro推出的系統(tǒng)將支持下一代EDSFF外形尺寸,包括E3.S和E1.S裝置,這些裝置的外形尺寸能夠容納16和32個(gè)高性能PCIe Gen5 NVMe驅(qū)動(dòng)器槽。這不僅提升了存儲(chǔ)密度,也增強(qiáng)了系統(tǒng)的擴(kuò)展性和靈活性。
新型Supermicro X14系統(tǒng)每節(jié)點(diǎn)將支持最多576個(gè)核心,并且提供面向所有裝置類型的PCIe 5.0、CXL 2.0接口,以及NVMe存儲(chǔ)和最新型GPU加速器。這些技術(shù)的綜合應(yīng)用為運(yùn)行AI工作負(fù)載的用戶大幅度降低了應(yīng)用程序執(zhí)行所需的時(shí)間。
而CXL作為一項(xiàng)新興技術(shù),Supermicro已經(jīng)在服務(wù)器中全面支持。我們認(rèn)識(shí)到CXL在內(nèi)存擴(kuò)展和加速計(jì)算方面的潛力,并通過(guò)我們的產(chǎn)品設(shè)計(jì),確??蛻裟軌虺浞掷肅XL技術(shù)帶來(lái)的優(yōu)勢(shì)。通過(guò)這些前瞻性的技術(shù)部署,Supermicro致力于為客戶提供最先進(jìn)、最高效的服務(wù)器解決方案,以滿足他們不斷增長(zhǎng)的業(yè)務(wù)需求。
宋家雨:直流電源機(jī)架母線技術(shù)的主要適用場(chǎng)景是什么?
李運(yùn)杰:直流母線技術(shù)主要用于數(shù)據(jù)中心,以優(yōu)化成本和效率。除了能避免線纜雜亂外,直流母線比傳統(tǒng)電源便宜得多,并且可以直接連接到服務(wù)器。這使其導(dǎo)電性能更好,從而提高了效率,減少了能量的熱損耗。