“我在一個偶然的情況下成為LINPACK基準測試程序開發(fā)者的?!?022年12月12日,超算ISC TOP 500基準測試的LINPACK軟件包開發(fā)者,美國田納西大學的教授和國家橡樹嶺國家實驗室專家Jack Dangarra先生在以線上方式舉行的第十八屆CCF全國高性能計算學術(shù)年會(以下簡稱CCF HPC China 2022) 上回顧了這一基準測試程序的問世過程。

偶然的LINPACK基準測試程序開發(fā)者

在上世紀70年代,美國田納西大學工作的Jack Dangarra教授開始動筆編寫一個基準測試,他的意圖是讓計算機通過線性運算求解一個方程組,這個基準測試軟件包對計算結(jié)果進行計時,最終根據(jù)解決問題所花費的時間對計算機速率進行排名或評級。

1979年在LINPACK用戶指南的附錄中,Jack Dangarra教授發(fā)布了第一個基準測試報告。從那時起,他就一直在收集信息。第一個基準測試報告的計算機覆蓋了多個計算機,從CRAY-1到DEC PDP-10。

后來,運行時間被轉(zhuǎn)換為浮點執(zhí)行速率。1977年排名時算力最強的計算機是美國國家大氣研究所的CRAY-1,它的運算速率達到了14MFlop/s。

從那以后,LINPACK基準測時經(jīng)歷了許多變革和改進。不久后,Jack Dangarra教授發(fā)現(xiàn)Erich Strohmaier博士和來自德國的Hand Meuer也根據(jù)性能峰值變比了計算機排名。雙方?jīng)Q定把兩個列表整合在一起。

這就是全球超級計算機TOP 500名排名的來源,并成為全球最快超級計算機的權(quán)威評判標準。

該榜單每年發(fā)布兩次,通常在每年的11月和6月發(fā)布。最新的名單發(fā)布于2022年6月。

“您可以在任何計算機上運行這個基準測試?!盝ack Dangarra教授用他的那臺蘋果Mac筆記本電腦對基準測試市場問題求解的運行結(jié)果是166GFlop/s。這意味著什么?這臺筆記本電腦實際上比1993年前排名第一的超級計算機還要快——1993年排名第一的是一臺Think Machines的CM-5,這是一臺帶有1000個處理器的超級計算機,當時在Los Alamos國家實驗室用于核武器的設(shè)計。

“現(xiàn)在性能相當?shù)倪@臺筆記本電腦卻只用于用收發(fā)郵件或演講?!盝ack Dangarra教授風趣地說。

全球最快的超級計算機Frontier

在2022年6月發(fā)布的排名前十的超級計算機名單中可以看到,全球最快的超級計算機Frontier由HPE組建成,它使用了AMD處理器和AMD加速器,由CRAY制造的互聯(lián)芯片組連接,這就是用來運行基準測試的處理單元。

要指出的是,1.1EFlop/s的速度是理論峰值(2EFlop/s)的55%。這意味著還有很大的性能提升空間。

Frontier比排名第二的日本超級計算機“富岳”(Fagaku)整整快了2.49倍;前十的機器的性能超過了TOP 500算力總和的一半,500臺超級計算機的算力綜合約為4.4EFlop/s。

要想進入排名前十,速度至少要取得1.52PFlop/s。

可以看到,美國有5臺機器進入了前10名。

中國有兩臺機器進入前十,一臺是神威太湖之光,一個是天河二號。太湖之光使用的是中國自主研發(fā)設(shè)計的處理器,天河二號使用的是英特爾處理器和中國設(shè)計的加速器,所有這些超級計算機都采用了定制互聯(lián)芯片。

排名中還有芬蘭和法國的機器也是首次躋身榜單前十,其性能表現(xiàn)出色,給人留下深刻印象。

Jack Dangarra教授對Frontier念念不忘——畢竟——他是Frontier所在的橡樹嶺國家實驗室杰出一員。

Frontier占地面積約有兩個網(wǎng)球場那么大,大約有773萬個內(nèi)核,由9408個節(jié)點組成,每個節(jié)點有一個AMD EPYC 7A53 CPU和四個 AMD Instinct MI250X 加速卡組成,這臺超級計算機上有37000個加速器。這些GPU被用來進行加速和提升性能。在超級計算機中,98%的性能來自GPU,CPU本身對性能的貢獻很小。

Frontier的性能高居榜首,其運行功耗也相當厲害——已經(jīng)達到了30MW。1MW是什么含義?

“設(shè)想一下,如果我的房子里一年消耗1MW的電量,我將收到100萬美元的賬單。所以運行這些設(shè)備的成本是非常昂貴的?!盝ack Dangarra教授說。

昂貴的不只是用電成本:Frontier采用的是一個異構(gòu)的計算環(huán)境,一般在處理器和商用GPU上運行,因此各部件之間的通信成本是非常昂貴的。

Jack Dangarra教授提醒說,在應(yīng)用Frontier的時候要始終意識到這一點:當我們進行計算時,要盡量降低通信成本。

超級計算機以EFlop/s為單位,什么是EFlop/s?

浮點運算是64位浮點數(shù)的加法或乘法,這就是通常所說的浮點運算或Flop/s。一個EFlop/s是每秒100億億次浮點運算或者每秒10的18次方浮點運算。

如果讓全世界的每個人每秒計算一次,那么需要四年的時間才能完成一臺EFlop/s級計算機一秒鐘內(nèi)可以完成的運算。超級計算機實現(xiàn)的就是這樣的算力。

值得注意的是,使用較低的精度,可以獲得性能上的提升。

也就是說,如果使用16位浮點運算取代64位浮點運算,那么Frontier性能可以達到11EFlop/s。

中國與超級計算機:最大的消費國和生產(chǎn)國

“中國是超級計算的最大消費國和生產(chǎn)國,目前還有兩臺E級超級計算機!”Jack Dangarra 語出驚人,看得出他對中國在超算領(lǐng)域的快速發(fā)展密切關(guān)注。

中國是超級計算的最大消費國和生產(chǎn)國,從TOP 500排名中可以看到這一點;英特爾處理器占了最大的份額,排名前500位的超級計算機中有78%采用的是英特爾的處理器,AMD占據(jù)19%;從架構(gòu)來看,英特爾和Amd都是x86架構(gòu),在超級計算機的TOP 500名中占據(jù)了97%的份額。

在各個國家的超級計算機數(shù)量中,中國擁有最多的173臺超級計算機,美國第二,共128臺,其后是日本、德國、法國。中國不僅是消費最多的超級計算機,還制造了最多的超級的計算機,主要的中國的公司是inspire、曙光和聯(lián)想。

有傳言說中國有兩臺億級超級計算機,廣州有一家被稱為海洋之光的,采用的是申威處理器,據(jù)稱這臺機器的運算速度超過了1EFlop/s,但他們還沒有將結(jié)果提交給基準測試結(jié)果。

“我們是知道有這臺機器的存在的。因為已經(jīng)有科研人員根據(jù)在這臺超級計算機上進行的研究發(fā)表了論文并在2021年獲得了一個非常著名的戈登貝爾獎。他們就是使用海洋之光系統(tǒng)開始的計算?!盝ack Dangarra說。

“在天津,還有另一臺機器使用了中國自研的處理器和加速器的超級計算機。”Jack Dangarra教授繼續(xù)抖包袱:“我們認為它在基準測試上的表現(xiàn)也略有超過1EFlop/s。但這些結(jié)果還沒有正式提交給TOP 500排名。這很容易做到,但他們還沒有結(jié)果?!?/p>

改變超級計算機的趨勢

今天,人們擁有獲取數(shù)據(jù)的手段越來越多,尤其是通過互聯(lián)網(wǎng)可以收集數(shù)據(jù),數(shù)據(jù)越來越豐富,有力地促進了機器學習和人工智能的研究,特殊的硬件也在有效地解決各個問題之中。

人工智能包含了豐富的構(gòu)想和概念。機器學習是人工智能的一種,自然語言處理、專家系統(tǒng),視覺、語音、智能規(guī)劃、機機器人都適用于人工智能這個大保護傘下,研究深度神經(jīng)網(wǎng)絡(luò)。

越來越多的人工智能應(yīng)用于計算科學應(yīng)用方向,比如在氣候研究、生物學、藥物發(fā)現(xiàn)、材料開發(fā)、高能物理學以及宇宙學中,真正增強了科學發(fā)現(xiàn)的能力。

1997年,第一臺Terascale超級計算機誕生,到2008年,第一臺petascale規(guī)模機器問世,大約11年間,在性能上有了三個數(shù)量級的提升。如今,人們花了14年時間將性能提高到新的水平,也就是新的三個水平和量級。

未來會發(fā)生什么、要花多長時間才能達到下一個三個數(shù)量級——zetascale?

Jack Dangarra教授的演講中滿是對未來的探索:“我猜應(yīng)該超過14年。時間會證明一切?!?/p>

他還談到了“HPCG”,這個在Linpack基礎(chǔ)上進行開發(fā)的基準測試將更適于超級計算機在新時代更多不同場景,比如,用于求解三維偏微分方程。今天排名第一的超級計算機是日本的富岳,它在這個基準上達到了16PFlop/s,這是理論峰值性能的3%。顯然,這個基準展示了一個不同水平的性能。

在Jack Dangarra教授眼中,這意味著,有效利用機器的算法和軟件,還有很多改進的空間。

后摩爾時代,未來的高性能計算將如何發(fā)展?

“改變超級計算機的,除了基準測試、軟硬件還有人工智能和機器學習?!盝ack Dangarra教授指出。

目前,為超級計算機搭建的架構(gòu)采用的是CPU和GPU組合,未來可能會在這一基礎(chǔ)上進一步擴展,不僅有GPU,有機器學習設(shè)備,還會有神經(jīng)系統(tǒng),以及量子計算技術(shù),甚至光學計算都會加入進來,幫助解決多種計算問題的綜合。

“未來的系統(tǒng)可能會由很多這樣的部件組成,作為用戶,你可以為你的特定工作組合、應(yīng)用程序等撥號將其加入到你的配置中?!盝ack Dangarra教授說。

高性能計算在不斷變化。從標量開始,發(fā)展到了向量計算,后來又有了分布式計算。對于加速計算,今天人們使用混合浮點精細度來幫助這些計算。

Jack Dangarra教授表示,人們歷經(jīng)了三場計算機革命,一場是高性能計算,另一場是深度學習,第三場是邊界或人工智能計算,軟件和算法在某種意義上緊隨硬件之后。

一提到硬件,人們往往就會想到,硬件廠商開發(fā)出先進的設(shè)備,而軟件和開發(fā)人員就不遺余力地發(fā)掘使用新硬件、新計算系統(tǒng)的各種方法,然后用接下來的兩三年時間來解決計算問題,就像重復罰款一樣。

足夠的空間驅(qū)動計算機性能的提升,并且會提升越來越多。

Jack Dangarra教授于2022年10月13日榮獲美國計算機協(xié)會(ACM)頒發(fā)的 2021 年圖靈獎。圖靈獎常被稱作“計算機界的諾貝爾獎”。

此前,Jack Dangarra教授曾于2014年11月6日在HPC大會上發(fā)表主題為《Algorithmic and Software Challengesat ExtremeScales》的報告,探討了High Performance Linpack(HPL)和真實的應(yīng)用性能之間的缺口,以及高性能計算遇到的挑戰(zhàn)和未來趨勢。

分享到

xiesc

相關(guān)推薦