阿里云發(fā)布首個異構(gòu)超算集群

人工智能特別是深度學習,對算力的要求永無止境。但如果只是堆砌芯片,沒有低延時網(wǎng)絡、高速讀寫能力,大規(guī)模集群無法發(fā)揮出最大的計算性能,性能損耗通常在50%左右。且算力資源并不豐富,有研究顯示,到2030年中國研究人員每人平均只能擁有1-2個GPU,大多數(shù)研究將受到計算能力的嚴重限制。SCC-GN6是首個基于X-Dragon架構(gòu)的超算異構(gòu)產(chǎn)品,神龍云服務器與阿里云ECS、GPU云服務器等一起,最多可達512個節(jié)點,計算性能依舊接近線性增長,提供堪比超算中心的并行計算資源。

神龍異構(gòu)超算集群性能接近線性增長

這不僅因為支持節(jié)點數(shù)量多,更因為集成多項自研技術(shù):軟硬結(jié)合的X-Dragon架構(gòu)兼具性能和靈活性,50G RDMA超算網(wǎng)絡降低網(wǎng)絡延時,百萬級IOPS性能的ESSD塊存儲提供低于百微秒的讀寫延時,高性能并行文件系統(tǒng)CPFS讀寫吞吐達1TB/s,分布式加速框架Ali-Perseus對集群內(nèi)每一顆GPU工作負載進行優(yōu)化和加速。最高可以實現(xiàn)100%的性能提升,從而最大限度發(fā)揮芯片的計算性能。

 

以ImageNet競賽的128萬張圖片的數(shù)據(jù)集為例,用普通計算資源訓練ResNet50模型,如要達到75%的精度需要數(shù)天甚至一周的時間,而使用該神龍異構(gòu)超算集群產(chǎn)品,模型訓練可以縮短到幾分鐘,大大提升AI算法研發(fā)效率,加速業(yè)務創(chuàng)新。

 

阿里云智能創(chuàng)新產(chǎn)品線負責人張獻濤表示:”人工智能對算力提出了新挑戰(zhàn),神龍異構(gòu)超算集群提供了堪比超算中心的并行計算資源,用戶可以隨時獲取高性能計算能力,更不用擔心購買、搭建GPU需要耗費的時間成本。”此外,阿里云還發(fā)布了國內(nèi)首個公共云上的輕量級GPU異構(gòu)計算產(chǎn)品——vGN5i,打破傳統(tǒng)直通模式局限,提供比單顆物理GPU更細粒度的服務,從而讓用戶以更低成本、更高彈性開展業(yè)務。

 

作為國內(nèi)第一、全球前三的云服務商,阿里云于2017年10月發(fā)布了全球首個新一代”跨界”服務器彈性裸金屬服務器神龍X-Dragon,擁有接近物理機的性能以及虛擬機的靈活性,提供了新的計算資源獲取方式,已經(jīng)大規(guī)模服務于智能客服助手、智能翻譯、無人駕駛、智能推薦等場景。

 

在2019阿里云峰會·北京上,阿里云還提出未來將圍繞IT基礎設施的云化、核心技術(shù)的互聯(lián)網(wǎng)化和應用的數(shù)據(jù)化、智能化,持續(xù)推出符合用戶需求的產(chǎn)品,同時致力于被生態(tài)伙伴集成,不做SaaS并幫助企業(yè)做更好的SaaS。除了神龍異構(gòu)超算集群外,阿里云還發(fā)布了新版本POLARDB可兼容Oracle、SaaS加速器和小程序云。

分享到

xiesc

相關(guān)推薦