現(xiàn)場(chǎng)我看到了AMD的MI300,英偉達(dá)GB200,還有亞馬遜云科技的Trainium2,以及基于Trainium2的超級(jí)服務(wù)器UltraServer。

英偉達(dá)GB200

而這,就是英偉達(dá)的超級(jí)芯片GB200,一塊Grace CPU還有兩塊Blakwell200芯片,三者之間用NVLink兩兩互聯(lián),外部用NVLink交換機(jī)繼續(xù)連接,擴(kuò)展到有72塊B200顯卡,內(nèi)存可共享的大集群。

帶有Nitro卡的GB200服務(wù)器

這是GB200裝入服務(wù)器之后的樣子,可以看到,它已經(jīng)采用了冷板式水冷方案。沒(méi)辦法,它的功耗太大了。

GB200服務(wù)器的左面和右面

值得注意的是,這張截圖左邊綠色框全部都是英偉達(dá)做的,亞馬遜云科技做這臺(tái)服務(wù)器時(shí),不需要對(duì)這部分做太多修改,也沒(méi)辦法做太多修改。

而右面部分是亞馬遜云科技利用Amazon Nitro系列打造的,提供網(wǎng)絡(luò)、安全、還有SSD存儲(chǔ)等方面的能力,Nitro是亞馬遜百試不爽的數(shù)據(jù)中心神器,被叫做服務(wù)器里的服務(wù)器。

這應(yīng)該就是最新發(fā)布的P6實(shí)例背后的服務(wù)器,最大的問(wèn)題是它不夠靈活。為了解決這個(gè)問(wèn)題,亞馬遜云科技拿出了UltraServer服務(wù)器。

AWS Trainium 2高清靚照

這就是此前發(fā)布的Trainium2芯片,有兩個(gè)大的計(jì)算Die,兩邊都有HBM。

有意思的是,這一代還把電壓調(diào)節(jié)器直接嵌入芯片封裝的外圍,這種設(shè)計(jì)減少了電力傳輸路徑的長(zhǎng)度,從而減少了高負(fù)載時(shí),因?yàn)殡妷合陆刀鴮?dǎo)致性能下降的問(wèn)題。(這一功能叫Backside Power Delivery)

Amazon Trn2 UltraServer

這是我在現(xiàn)場(chǎng)看到的UltraServer服務(wù)器,沒(méi)錯(cuò),兩個(gè)機(jī)架現(xiàn)在都能叫一臺(tái)服務(wù)器了,這臺(tái)服務(wù)器非常的不簡(jiǎn)單,不尋常。

這樣一臺(tái)UltraServer服務(wù)器其實(shí)可以分成四個(gè)部分,為了方便了解,現(xiàn)在只看它的四分之一。

這四分之一應(yīng)該就是一臺(tái)Trainium2服務(wù)器,它能構(gòu)成普通的Trn2實(shí)例。

接下來(lái)介紹一下內(nèi)部構(gòu)造:

首先看到,最上面有一堆褐色的連接線,這就是PCIe連接線。

連接線的一頭插在了CPU的盒子,連接線的另外一端連接8個(gè)放著Trainium2芯片的盒子,每個(gè)盒子里有兩個(gè)Trainium2芯片。

請(qǐng)注意,這里完成了CPU跟Trainium2加速器的解耦。也請(qǐng)回憶一下跟GB200超級(jí)芯片的區(qū)別。

介紹完了CPU跟顯卡的連接,再來(lái)看紫色的線,它負(fù)責(zé)連接800G的交換機(jī)。

800G網(wǎng)絡(luò)交換機(jī)

上圖就是800G的網(wǎng)絡(luò)交換機(jī),其定位有點(diǎn)類似英偉達(dá)的Spectrum SN5600以太網(wǎng)交換機(jī),兩者都有64個(gè)端口。另外,淡黃色的線是IO的連接器,是負(fù)責(zé)連接存儲(chǔ)用的,負(fù)責(zé)存儲(chǔ)的解耦。

縮小一下圖片來(lái)看,這里會(huì)注意到藍(lán)色的很粗的線,這就是最新介紹的NeuronLink,名字跟英偉達(dá)的NVLink很像,功能也有點(diǎn)像,都是chip-chip的連接線。

用于連接Trainium芯片的NeuronLink

不過(guò),它只是連接另外一個(gè)放置Trainium2盒子的線,每個(gè)盒子伸出來(lái)兩根藍(lán)色的線。不難腦補(bǔ)出這個(gè)圖譜,是一個(gè)兩兩互聯(lián)的方塊,但沒(méi)有對(duì)角線的直接互聯(lián)。

這就是UltraServer的大致情況,四個(gè)計(jì)算盒子加上32個(gè)Trainium盒子,就組成UltraServer。

另外,UltraServer之間會(huì)用10P10U的網(wǎng)絡(luò)進(jìn)行互聯(lián),所謂10P10U指的是,10Pb/s的傳輸帶寬,以及10微秒的網(wǎng)絡(luò)延遲,連起來(lái)之后,就組成了可用于訓(xùn)練的超級(jí)集群。(注:10P10U也被稱作是UltraCluster 2.0)

有朋友注意到,亞馬遜云科技還提到了SIDR,它提供了一種高效的方式來(lái)快速檢測(cè)和響應(yīng)網(wǎng)絡(luò)故障,能在很短的時(shí)間重新規(guī)劃網(wǎng)絡(luò)路徑,為大規(guī)模集群提供了超高的網(wǎng)絡(luò)可靠性和故障恢復(fù)能力,也是 10P10U 網(wǎng)絡(luò)的重要支撐技術(shù)。

最后提一下,亞馬遜云科技高級(jí)副總裁Peter DeSantis在演講中特別提到了Tranium2支持的 Systolic Arrays (芯片脈動(dòng)陣列)架構(gòu)。

它跟CPU還有GPU需要反復(fù)讀取內(nèi)存?zhèn)鬟f數(shù)據(jù)的做法不同,它在拿到數(shù)據(jù)之后,能夠在Tranium2之間直接傳遞計(jì)算結(jié)果,最大程度減少內(nèi)存帶寬壓力,能更高效地處理矩陣乘法和稀疏張量等深度學(xué)習(xí)工作負(fù)載。

UltraServer這種解耦的設(shè)計(jì)與英偉達(dá)GB200的方案相比,有很多好處:

第一個(gè)就是,因?yàn)樗瓿闪薈PU跟Trainium2這種ASIC加速器的解耦,單個(gè)加速器出問(wèn)題之后,不會(huì)影響整臺(tái)服務(wù)器工作。

而UltraServer在單個(gè)Trainium2出問(wèn)題之后,只需要把它所在的Trainium盒子拿出來(lái)替換掉就行了,增加了靈活性和可維護(hù)性。

另外一個(gè)優(yōu)勢(shì)在于,它采用的是風(fēng)冷的方案,剛才也看到了,GB200服務(wù)器方案是液冷的,維護(hù)起來(lái)會(huì)比較麻煩。

我注意到,UltraServer本身并不是要去直接取代英偉達(dá)的GB200。UltraServer強(qiáng)調(diào)的算力是FP8的,F(xiàn)P8 正在迅速發(fā)展,并逐漸被引入訓(xùn)練環(huán)節(jié),特別是在優(yōu)化計(jì)算性能和內(nèi)存利用率方面。

而在目前,F(xiàn)P16 是訓(xùn)練環(huán)節(jié)的主要選擇,因?yàn)樗墒旆€(wěn)定,能滿足模型精度需求,并顯著提高性能,這目前仍是英偉達(dá)的顯卡更有優(yōu)勢(shì)的領(lǐng)域。亞馬遜云科技也強(qiáng)調(diào),自己是最適合GPU的云。

以上就是目前我知道的,關(guān)于Trainium2的UltraServer服務(wù)器的主要內(nèi)容。如果您知道更多細(xì)節(jié),或者我有理解不對(duì)的地方,歡迎評(píng)論區(qū)互動(dòng)討論。

分享到

zhupb

相關(guān)推薦