阿里巴巴研究員、阿里云彈性計(jì)算負(fù)責(zé)人張獻(xiàn)濤

傳統(tǒng)超級計(jì)算機(jī)提供的更多是專用領(lǐng)域的“珠穆朗瑪峰”,高不可攀。阿里巴巴研究員、阿里云彈性計(jì)算負(fù)責(zé)人張獻(xiàn)濤說:“阿里云高性能計(jì)算平臺搭建的是‘青藏高原’,希望幫助更多行業(yè)用戶構(gòu)筑自己的‘珠穆朗瑪峰’,解決他們對于高性能計(jì)算和對算力的需求?!?/p>

以“青藏高原”為底座,助力用戶構(gòu)建“珠穆朗瑪峰”

彈性計(jì)算是構(gòu)建算力的基礎(chǔ)設(shè)施,被張獻(xiàn)濤形象地描述為“就像青藏高原一樣”。

理論上,云計(jì)算就是把上百萬臺的服務(wù)器構(gòu)建成一臺超級計(jì)算機(jī),提供統(tǒng)一的計(jì)算、統(tǒng)一的存儲和統(tǒng)一的網(wǎng)絡(luò)資源,實(shí)現(xiàn)更好的資源調(diào)度。

依托阿里云自研的神龍架構(gòu),用戶不再需要RDMA或IB網(wǎng)絡(luò),也無需采購硬件設(shè)備,只需要在阿里云平臺發(fā)送一條命令,即可輕松構(gòu)建一臺虛擬服務(wù)器,或者是一個(gè)磁盤,每個(gè)磁盤都具備100萬IOPS且可獨(dú)立工作。神龍架構(gòu)就是阿里云構(gòu)建的云上超算能力的基礎(chǔ),在這上阿里云構(gòu)建了一個(gè)超級計(jì)算機(jī),可以是10臺、100臺、1000臺甚至5000臺的規(guī)模。用戶再發(fā)送一條OpenAPI指令,就可以獨(dú)享資源,非常的便捷。

據(jù)張獻(xiàn)濤介紹,阿里云還構(gòu)建了阿里云彈性高性能計(jì)算平臺PaaS調(diào)度平臺,通過E-HPC調(diào)度系統(tǒng),用戶可以模塊式的方式讓所有任務(wù)獲得公共云上的數(shù)據(jù)庫或是存儲等各種能力。

阿里巴巴研究員、阿里云彈性計(jì)算負(fù)責(zé)人張獻(xiàn)濤接受媒體采訪

“彈性高性能計(jì)算平臺E-HPC,搭建了云和高性能計(jì)算應(yīng)用之間的橋梁?!睆埆I(xiàn)濤說到,“阿里云高性能計(jì)算平臺覆蓋了絕大多數(shù)HPC的應(yīng)用場景,可以為更多有高性能計(jì)算需求的用戶提供更好的支持?!?/p>

那么,阿里云是如何做到的?

十年彈性計(jì)算探索之路

2010年5月,阿里云首個(gè)商業(yè)化的彈性計(jì)算產(chǎn)品ECS1.0面世,自此阿里云一直在探索未來彈性計(jì)算的核心技術(shù)方向。2014年之后,ECS產(chǎn)品進(jìn)行了三次大型升級迭代。

經(jīng)過十年來的不懈努力,阿里云的存儲性能提升了2000倍,網(wǎng)絡(luò)性能提升了500倍,整體算力平均每年翻一番。

目前,阿里云在全球的22個(gè)地域建立了63個(gè)大型數(shù)據(jù)中心,全球服務(wù)用戶已超過100萬家;在中國,80%的科技創(chuàng)新企業(yè)都運(yùn)行在阿里云平臺上。當(dāng)前,阿里云高性能計(jì)算平臺E-HPC已經(jīng)覆蓋了包括各種渲染、氣象、半導(dǎo)體、石油勘探等行業(yè)用戶。

Gartenr在最新報(bào)告中指出,阿里云的彈性計(jì)算以產(chǎn)品性能,穩(wěn)定性和服務(wù)質(zhì)量方面均超越了全球所有公司的水平位居世界第一。

可以說,阿里云重構(gòu)了計(jì)算和服務(wù)模式,具備了服務(wù)全業(yè)務(wù)場景的能力。

云超算用戶提供了一種新選擇

有這樣一家大型汽車制造企業(yè),其業(yè)務(wù)要求業(yè)務(wù)系統(tǒng)能夠全年365天、全天24小時(shí)高速滿負(fù)荷運(yùn)轉(zhuǎn),而且業(yè)務(wù)還會時(shí)常調(diào)整,這樣的需求只有具備熱遷移、低成本主動運(yùn)維以及高可靠、高穩(wěn)定性能力的云平臺才能滿足,傳統(tǒng)超算是很難滿足需求。

所以,云超算的問世,給用戶帶來了新的選擇。

在阿里云高性能計(jì)算負(fù)責(zé)人何萬青看來,阿里云底層的技術(shù)很好地支撐并滿足了高性能計(jì)算用戶的苛刻需求,即使在計(jì)算資源利用率超過90%的情況下仍能穩(wěn)定運(yùn)行。

傳統(tǒng)超算中心,幾乎都是國家在投入,但是這些超算中心的服務(wù)質(zhì)量、性能等方面都有待提升,一方面是系統(tǒng)建設(shè)的速度趕不上用戶不斷更新的需求,另一方面,是前期巨額的投資難于收回成本,而且運(yùn)維成本也在不斷攀升。因此,越來越多的超算中心也在探索“超算云”的模式。

以阿里云為代表的商業(yè)公司,雖然難以建成與傳統(tǒng)超算中心匹敵的規(guī)模,但是其按需付費(fèi)、極致彈性、深入場景等一系列獨(dú)特的優(yōu)勢,給超算領(lǐng)域注入了新的活力。

例如,傳統(tǒng)超算中心建設(shè)的時(shí)候,往往針對的是客戶當(dāng)下的需求,當(dāng)建成時(shí),客戶需求已經(jīng)發(fā)生變化,而且延期交工的超算中心也越來越多。此外,傳統(tǒng)超算中心大多是采用的是分時(shí)復(fù)用的系統(tǒng),客戶的應(yīng)用需求在提交后需要排隊(duì)等待,短則兩三天,長則十天半個(gè)月。

阿里云高性能計(jì)算負(fù)責(zé)人何萬青接受媒體采訪

商業(yè)化的云超算優(yōu)勢之一是隨時(shí)用隨時(shí)釋放,即用戶成功購買后可獨(dú)占資源,為石油勘探、天氣預(yù)報(bào)等時(shí)效要求高的用戶提供穩(wěn)定的算力,資源隨時(shí)用、隨時(shí)伸縮、隨時(shí)釋放,降低使用成本。

遵從市場經(jīng)濟(jì)規(guī)律,云超算必須提供有領(lǐng)先的產(chǎn)品技術(shù)、便捷優(yōu)質(zhì)的服務(wù),才能具備發(fā)展?jié)摿?。目前,阿里云正在積極布局生態(tài)建設(shè),以服務(wù)好行業(yè)客戶。

未來,云超算或?qū)⒊蔀橼厔荨?/p>

三年斥資2000億元,發(fā)力新基建

今年年初,阿里云宣布未來三年還將投入2000億元,用于云操作系統(tǒng)、服務(wù)器、芯片、網(wǎng)絡(luò)等重大核心技術(shù)研發(fā)攻堅(jiān),并在現(xiàn)有張北、河源、杭州、南通和烏蘭察布等五大超級數(shù)據(jù)中心的基礎(chǔ)上,建立應(yīng)用了達(dá)摩院、平頭哥等最新研究成果,在規(guī)模、算力、節(jié)能、智能化方面全面升級10座以上的超級數(shù)據(jù)中心,支持新基建發(fā)展。

云超算中心與傳統(tǒng)超算中心共同服務(wù)客戶的局面,正在形成;受益者,將是眾多行業(yè)客戶。

分享到

xiesc

相關(guān)推薦