以極致算力服務,推動HPC民主化
HPC的應用早期主要集中在科研領域,為什么現(xiàn)在開始大規(guī)模地在泛商業(yè)領域落地?
對此,凌琦分析指出,泛商業(yè)領域很早就對HPC有所期待,但一直面臨計算資源有限、預算不足、計算時間長、缺乏商業(yè)軟件等諸多挑戰(zhàn),隨著大數(shù)據(jù)與人工智能的普及,情況變得更加嚴重。當云計算與HPC相結合以后,帶來了高性能、高彈性與低成本等優(yōu)勢,才克服了這些挑戰(zhàn),推動了HPC在泛商業(yè)領域逐漸得到廣泛的應用。
HPC云平臺固然有高彈性的優(yōu)勢,但是其基于虛擬化管理是有成本的,與物理的HPC環(huán)境相比,HPC云平臺是否在性能上要有所犧牲?
凌琦介紹,為了讓客戶得到100%的算力,亞馬遜云科技在在體系架構上進行了創(chuàng)新,通過專有芯片對虛擬化進行管理,從而把計算百分之百地提供給客戶。
由于HPC的用戶主要是各領域的專業(yè)人員,亞馬遜云科技一直致力于通過引入基于ARM 架構芯片、HPC集群管理、數(shù)據(jù)安全與合規(guī)等科技創(chuàng)新,把算力、存儲、網(wǎng)絡、服務等做到極致,為專業(yè)人員解決IT方面的后顧之憂。
一家美國客戶原來在美國超算中心進行氣象計算,后來遷移到亞馬遜云上,性能大幅提升了53%,這要涉及到特別的算法、亞微秒級延時的網(wǎng)絡、高吞吐工作負載、容器化調(diào)度等各種服務。
F1一級方程式大賽是全球最昂貴、科技成本最高的體育賽事之一。在車輛設計、比賽場館監(jiān)控,特別是CFD 空氣動力學模擬等方面需要大量的算力支持。在亞馬遜云科技的幫助下,云平臺上的兩個汽車湍流模擬從1增加到5,仿真時間從60小時降低到18小時,算力規(guī)??梢詮?92 核擴展到1440 核 (C5n with EFA + Amazon ParallelCluster) ,F(xiàn)1官方評價與亞馬遜云科技合作的項目是F1空氣動力學應用歷史上最具創(chuàng)新意義的項目。
2019年底,亞馬遜云科技對全球1500個云上客戶的整體應用成本、運維效率、產(chǎn)品上市時間等多維度進行全面分析后得出的結論為:整體上云后的成本降低27%,管理效率提升50%,同時因為很多云上應用可以自動化,使得客戶可以輕松地在云上一鍵部署,快速擴張,快速關停,整體業(yè)務的 TTM 時間提升了37%。
在第三方調(diào)查中,HPC 連線雜志每年對全球用戶進行調(diào)研,亞馬遜云科技也連續(xù)3年被評為最佳高性能云計算平臺。尤其值得一提的是,目前在全球高性能計算轉(zhuǎn)向云平臺的過程中,58%的HPC計算量處于亞馬遜云上。
正是由于亞馬遜云科技在云科技領域持續(xù)進行的前瞻性研究和投入,保證了其始終走在行業(yè)的前沿。
芯片創(chuàng)新:亞馬遜云科技基于 Arm 的架構設計出 Amazon Graviton2 處理器,并將其算力通過云的形式對外提供服務。相對于傳統(tǒng)計算架構,Amazon Graviton2 能帶來最高40%性價比提升,能在更經(jīng)濟的情況下完成高性能計算任務。
豐富實例:由于高性能計算的種類眾多,負載各異,對基礎架構的要求也不一樣,亞馬遜云科技圍繞高性能計算設計開發(fā)了很多種專業(yè)服務,僅算力就有超過400種實例可供用戶靈活選擇。
量子計算:量子計算是下一代計算能力的一個重要突破點,而量子計算服務在亞馬遜云科技并非只停留在實驗室,而是已經(jīng)把三家技術路線不盡相同的量子計算硬件服務商的解決方案云化后,為用戶提供按需購買的量子計算服務,并已應用于金融、制藥等多個行業(yè)。
公開數(shù)據(jù)集:當今的高性能計算很大程度上與大數(shù)據(jù)或人工智能仿真相關,由此帶來大量數(shù)據(jù)應用。除了客戶自己的數(shù)據(jù)外,在建立模型以及對模型進行測試也會需要處理大量的公開的數(shù)據(jù)集或第三方的數(shù)據(jù)集。亞馬遜云科技目前已經(jīng)在全球提供了包括對于地球物理環(huán)境的監(jiān)控數(shù)據(jù)、對海洋表面溫度的數(shù)據(jù)和人類的基因數(shù)據(jù)等300多個公開數(shù)據(jù)集。
由于中國的市場和用戶與國際有所不同,亞馬遜云科技是否有專門針對中國用戶的創(chuàng)新?
凌琦指出,中國正在經(jīng)歷大規(guī)模全面的數(shù)字化轉(zhuǎn)型,在工業(yè)4.0、移動支付等各個領域有著非常豐富的應用場景和國外所沒有的規(guī)模,并且在一些領域通過更多的投資已經(jīng)走在了前列,未來將會有很多精彩的創(chuàng)新在中國率先出現(xiàn)。亞馬遜云科技是一家長期堅持以客戶需求為中心的公司,致力于深入了解客戶應用的痛點,也會與積極與中國客戶一起進行創(chuàng)新。
以金風慧能為例,風電的產(chǎn)生、風電廠的管理等與天氣預測的關系非常密切。據(jù)介紹,WRF全流程-Weather Research and Forecasting Model是金風慧能在功率預測產(chǎn)品氣象數(shù)值模式計算的主要工作負載,但面臨著計算資源短缺的巨大挑戰(zhàn)亟需補充。
經(jīng)過多家單位的計算資源測試,并完成了x86和ARM架構下數(shù)值模式的運算實驗,金風慧能最終選定亞馬遜云科技ARM架構機型,每年節(jié)省了70%的成本,相同數(shù)據(jù)集的計算時間縮短了30%,C6g.4xlarge 實例16個vCPU性能達到了之前物理數(shù)據(jù)中心28核服務器的性能,在亞馬遜云科技云平臺上實現(xiàn)了WRF全流程交付,也極大地簡化了金風慧能的運維工作。
GeoSoftware通過整合亞馬遜云科技的高性能計算能力,可以讓地球科學家在幾分鐘內(nèi)擴展出數(shù)千數(shù)萬個CPU來應對作業(yè)隊列的處理工作,將復雜運算結果的取得時間從傳統(tǒng)方式的1周縮短至3~4小時。而且NICE DCV將用戶界面流式傳輸?shù)娇蛻舳擞嬎銠C,無需再依賴昂貴的專用工作站,為用戶提供了更加便利的體驗。
目前,亞馬遜云科技已經(jīng)廣泛服務于能源、汽車、醫(yī)藥等各行各業(yè)的HPC客戶。
積極采用可再生能源,持續(xù)提升云能效
中國基于推動構建人類命運共同體的責任與擔當,以及實現(xiàn)可持續(xù)發(fā)展的內(nèi)在要求,向世界作出莊嚴承諾,出臺了“碳達峰與碳中和”的重大戰(zhàn)略決策。
亞馬遜云科技也提出了助力“雙碳”目標實現(xiàn)的戰(zhàn)略與舉措。
在可再生能源方面,亞馬遜承諾,2025年亞馬遜的基礎設施100%使用可再生能源,覆蓋亞馬遜的辦公室、交付中心和亞馬遜云科技的數(shù)據(jù)中心。
今年9月,亞馬遜宣布了在中國支持的第二個可再生能源項目——位于吉林省的100兆瓦(MW)風能項目。該項目將于 2023年投入運營,預計屆時每年可提供超過30萬兆瓦時(MWh)的可再生能源,相當于為超過15萬戶中國普通家庭提供電力支持。亞馬遜在中國支持的第一個可再生能源項目是去年宣布的位于山東的太陽能項目。
亞馬遜作為全球最大的可再生能源企業(yè)采購商之一,已經(jīng)在全球打造了232個項目,到2025年將實現(xiàn)全球基礎設施100%使用可再生能源。
在提高云的能效方面,亞馬遜云科技的基礎設施比同行能效高。調(diào)查演講結果顯示,亞馬遜云科技的基礎設施能源效率,比受訪的其它美國企業(yè)數(shù)據(jù)中心的中位數(shù)高3.6倍,主要原因是亞馬遜云科技的服務器更節(jié)能,服務器利用率更高。此外,因為亞馬遜云科技在設施的各個方面都采取了提高能效的措施,其數(shù)據(jù)中心也比企業(yè)的數(shù)據(jù)中心更節(jié)能。
小結
今天各行各業(yè)的用戶對高性能計算需求可以說是已經(jīng)變得無處不在,從以前的傳統(tǒng)高性能計算,比如地球物理研究、石油勘探、天氣預測等領域到近幾年出現(xiàn)的基因測序、自動駕駛都有它的身影。最新一代的人工智能技術,以及大數(shù)據(jù)技術的發(fā)展,將高性能計算進一步推廣到更多領域。
在計算量不斷提升的壓力下,為了在更高性價比的情況下,使計算能力大幅度地提高,在集群運作過程中完成大量的管理工作,越來越多的客戶開始考慮如何能把高性能計算在云實現(xiàn)。
亞馬遜云科技在全球三大超算領域盛會之一的CCF HPC China 2021上,為我們完美地展示了卓越不凡的云上HPC硬實力。