阿里云彈性高性能計(jì)算平臺E-HPC產(chǎn)品榮獲會議創(chuàng)新大獎

此次獲獎的彈性高性能計(jì)算平臺E-HPC,就是阿里云基于自研飛天系統(tǒng)和神龍架構(gòu),將HPC與云計(jì)算有效相結(jié)合并借助遍布全球的多樣性計(jì)算、存儲和網(wǎng)絡(luò)等資源,以高性能、高彈性與低成本的算力,為企業(yè)HPC業(yè)務(wù)在云上高效、穩(wěn)定運(yùn)行提供支持和服務(wù),助力其業(yè)務(wù)創(chuàng)新加速。

阿里云彈性高性能計(jì)算平臺E-HPC,讓高性能計(jì)算不再高不可攀

HPC業(yè)務(wù)場景對性能有著極高的要求。為確保高性能計(jì)算業(yè)務(wù)在云上高效、穩(wěn)定、安全的運(yùn)行,阿里云推出了高性能神龍服務(wù)器、高性能網(wǎng)絡(luò)和高性能數(shù)據(jù)存儲,它們一道組成了阿里云彈性高性能計(jì)算平臺E-HPC的核心基礎(chǔ)設(shè)施。

在計(jì)算方面,阿里云通過全球率先發(fā)布的革命性的CIPU處理器,對存儲和網(wǎng)絡(luò)實(shí)現(xiàn)低延的池化與虛擬化,讓100%的算力支持企業(yè)多元的計(jì)算場景需求。

CIPU的性能表現(xiàn)搶眼:僅單個(gè)實(shí)例就可以提供高達(dá)300萬IOPS的存儲能力、低至30us的延時(shí),以及5000萬PPS的網(wǎng)絡(luò)轉(zhuǎn)發(fā)能力和低至16us延時(shí),高彈性和企業(yè)級安全的能力支撐百萬級服務(wù)器高性能、穩(wěn)定運(yùn)行,顛覆了傳統(tǒng)IT時(shí)代的計(jì)算架構(gòu),帶來了一場計(jì)算架構(gòu)的革新。

在網(wǎng)絡(luò)方面,與傳統(tǒng)的RDMA(Remote Direct Memory Access)

組網(wǎng)最多上千臺服務(wù)器相比,基于阿里云自研的eRDMA,可輕松構(gòu)建一個(gè)超大型RDMA分布式計(jì)算網(wǎng)絡(luò),網(wǎng)絡(luò)延遲從16us降低到5us,傳輸效率提升70%以上。

數(shù)據(jù)表明,eRDMA可以提升Redis數(shù)據(jù)庫混合讀寫80%的吞吐量,增強(qiáng)大規(guī)模分布式NLP和視覺計(jì)算30%的訓(xùn)練性能,Spark場景中的分布式大數(shù)據(jù)實(shí)現(xiàn)30%的計(jì)算性能提升。針對諸如新一代天氣模擬系統(tǒng)WRF(Weather Research and Forecasting)等HPC應(yīng)用場景,eRDMA較傳統(tǒng)方式提升38%的性能。

存儲系統(tǒng)性能是衡量HPC方案中底層基礎(chǔ)設(shè)施重要的指標(biāo)之一。阿里云新一代高性能并行存儲CPFS(Cloud Parallel File Storage)系統(tǒng),提供了線上和線下HPC解決方案中的核心數(shù)據(jù)平臺服務(wù)。除了支持RDMA高性能網(wǎng)絡(luò)、提供POSIX兼容的接口,CPFS還提供了通用的NFS接口,與E-HPC以及無影計(jì)算生態(tài)無縫對接,實(shí)現(xiàn)整個(gè)生產(chǎn)鏈條下的數(shù)據(jù)共享。

CPFS具備高達(dá)每秒鐘數(shù)百GB的吞吐能力,以及每秒鐘數(shù)百萬次IOPS的讀寫能力;在安全方面,CPFS支持WORM、訪問審計(jì)等數(shù)據(jù)安全能力,滿足敏感數(shù)據(jù)存儲需求。

在服務(wù)觸達(dá)方面,阿里云布局在全球28個(gè)地區(qū)和85個(gè)云計(jì)算可用區(qū)所提供的算力服務(wù)。此外,阿里云還通過開箱即用的云盒(CloudBox)、專屬Region、本地Region等新的產(chǎn)品形態(tài)以全方位產(chǎn)品矩陣將公共云的計(jì)算、存儲、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施以軟硬一體方式延伸部署企業(yè)本地的數(shù)據(jù)中心,滿足用戶對數(shù)據(jù)安全、數(shù)據(jù)本地處理、低延時(shí)等業(yè)務(wù)需求的全托管云服務(wù)。

所有這些產(chǎn)品和服務(wù),借助彈性計(jì)算云這個(gè)載體,成為阿里云的一個(gè)基礎(chǔ)服務(wù),為企業(yè)的云上應(yīng)用提供了更好的選擇。

讓科學(xué)與工程計(jì)算人員聚焦計(jì)算,擺脫來自IT環(huán)境的束縛

阿里云彈性計(jì)算架構(gòu)E-HPC覆蓋了底層集群的生命周期管理、業(yè)務(wù)層面的調(diào)度器管理與作業(yè)管理、應(yīng)用層面的軟件環(huán)境、應(yīng)用性能管理以及最上層的業(yè)務(wù)使用接口;支持一鍵式創(chuàng)建云上的超算集群,按照HPC計(jì)算的要求編排云上的計(jì)算、存儲和網(wǎng)絡(luò)資源,并部署好相關(guān)計(jì)算軟件棧,讓企業(yè)可以直接開始計(jì)算工作。

針對企業(yè)最為關(guān)注的應(yīng)用性能,阿里云除了提供各種匹配不同計(jì)算場景的實(shí)例規(guī)則組織外,還在E-HPC服務(wù)中加入了完整的英特爾oneAPI能力與相應(yīng)的技術(shù)支持能力,為企業(yè)提供優(yōu)化的編譯、調(diào)試的工具鏈、性能數(shù)據(jù)采集與分析工具,完整的云上HPC應(yīng)用開發(fā)的平臺,方便有性能優(yōu)化思路和需求的企業(yè)直接在云上開展HPC應(yīng)用的驗(yàn)證,應(yīng)用性能剖析以及優(yōu)化的工作。

阿里云智能彈性計(jì)算&無影產(chǎn)品線負(fù)責(zé)人、阿里巴巴集團(tuán)研究員張獻(xiàn)濤博士出席第18屆CCF HPC China年會并發(fā)表主題演講

看得出來,E-HPC平臺化解了企業(yè)在業(yè)務(wù)上云過程中因?yàn)閷υ骗h(huán)境缺乏了解而難以著手的窘境,以符合企業(yè)的使用要求和使用習(xí)慣的方式,讓科學(xué)與工程計(jì)算人員將更多的精力聚焦在計(jì)算的本身,而不是放在對IT環(huán)境的適應(yīng)上。

豐富的行業(yè)實(shí)踐,讓高性能計(jì)算普惠更多應(yīng)用需求

基于性價(jià)比、數(shù)據(jù)安全、部署方便、應(yīng)用簡捷等多方面的優(yōu)勢,阿里云彈性高性能計(jì)算平臺E-HPC已經(jīng)取得了大量的成功實(shí)踐。

深勢科技借助阿里云快速地搭建穩(wěn)定的云上HPC集群,通過科學(xué)管理與靈活調(diào)度多種云上的資源,有效支持大量生命科學(xué)行業(yè)相關(guān)的應(yīng)用軟件和容器部署,以30%的成本完成日均3萬VCPU資源的交付,業(yè)務(wù)效率提升50%。

阿里云影視渲染的HPC解決方案也參與了《楊戩》、《刺殺小說家》、《你好,李煥英》等多部影視作品的打造。針對渲染行業(yè)中云上素材和云上渲染集群之間數(shù)據(jù)傳輸,阿里云還根據(jù)數(shù)據(jù)IO的特征專門設(shè)計(jì)了混合云文件緩存組件,降低了專線的壓力。如在與MORE VFX的合作過程中,阿里云針對性的HPC解決方案減少了渲染過程中對線下數(shù)據(jù)的訪問量,提升了影視后期制作工作效率。

無論是工業(yè)仿真、生物科學(xué)、氣象預(yù)報(bào)、芯片設(shè)計(jì)還是影視制作,阿里云彈性高性能計(jì)算平臺E-HPC都能夠支持云上云下資源混合模式的統(tǒng)一管理,讓企業(yè)在短時(shí)間內(nèi)獲取新業(yè)務(wù)和突發(fā)業(yè)務(wù)所需要的計(jì)算資源,保障業(yè)務(wù)能夠高效穩(wěn)定的運(yùn)行;當(dāng)作業(yè)運(yùn)行結(jié)束之后,立刻釋放多余的計(jì)算資源。

“云計(jì)算本身就是普惠科技的體現(xiàn)。科技的力量,讓以前只有在大型超算中心提供的算力,和所支持的應(yīng)用能夠在今天云計(jì)算平臺上輕松實(shí)現(xiàn)?!卑⒗镌浦悄軓椥杂?jì)算&無影產(chǎn)品線負(fù)責(zé)人、阿里巴巴集團(tuán)研究員張獻(xiàn)濤博士表示,如果把傳統(tǒng)的超算中心比作“珠穆朗瑪峰”,那么,阿里云的E-HPC則是將高性能計(jì)算作為更為普惠的覆蓋,成為高性能計(jì)算的“青藏高原”,讓更多的行業(yè)可以享受到更加普惠、更加安全可靠、成本更低的高性能計(jì)算服務(wù)。

創(chuàng)新永無止境,第八代實(shí)例性能全面提升

在現(xiàn)有成果的基礎(chǔ)上,全量搭載CIPU和飛天技術(shù)架構(gòu)的阿里云第八代實(shí)例(ECS g8i)即將發(fā)布。據(jù)悉,八代實(shí)例以標(biāo)配自研eRDMA大規(guī)模加速能力,顯著提升網(wǎng)絡(luò)傳輸效率,支持更多高性能計(jì)算業(yè)務(wù)在云上的部署。

在算力維度,八代實(shí)例采用了英特爾即將發(fā)布的最新第四代“至強(qiáng)”可擴(kuò)展處理器(代號Sapphire Rapids),“至強(qiáng)”處理器在通用算力提升的同時(shí)原生支持硬件,其中在AI領(lǐng)域訓(xùn)練場景的性能提升2倍以上、深度學(xué)習(xí)以及加解密、解壓縮場景的性能也能夠提升4倍以上。

同時(shí),基于第四代至強(qiáng)的八代實(shí)例搭載了TPM的可信芯片,在確保云上運(yùn)行環(huán)境完整性的同時(shí)配合加密計(jì)算能力、內(nèi)存加密TME的技術(shù),實(shí)現(xiàn)云上的原生計(jì)算安全。

網(wǎng)絡(luò)及存儲IO也實(shí)現(xiàn)了大幅度演進(jìn)。最新的云盤支持NVMe接口與共享存儲;物理網(wǎng)絡(luò)也全面提升到2×100G。

阿里云智能彈性計(jì)算&無影產(chǎn)品線負(fù)責(zé)人、阿里巴巴集團(tuán)研究員張獻(xiàn)濤博士

當(dāng)前,越來越多的主流高性能計(jì)算應(yīng)用正在向云遷移,與此同時(shí),高性能計(jì)算與大數(shù)據(jù)、人工智能等技術(shù)也正在走向融合。張獻(xiàn)濤表示,阿里云彈性高性能計(jì)算平臺E-HPC正在與傳統(tǒng)超算中心、智算中心一道,成為驅(qū)動技術(shù)創(chuàng)新與行業(yè)高質(zhì)量發(fā)展的核心引擎。

分享到

xiesc

相關(guān)推薦