Peter DeSantis的演講內(nèi)容分四個(gè)“靚仔”,分別是硬件、網(wǎng)絡(luò)、科學(xué)和軟件。其中,科學(xué)部分指的是AI/ML方面的創(chuàng)新,軟件指的是應(yīng)用軟件運(yùn)行。

首先,看硬件方面的創(chuàng)新

首先登場(chǎng)的依然是最令人期待的AWS Nitro,回顧歷史,Nitro被分成了四個(gè)版本來介紹,每一代都會(huì)有一些明顯的進(jìn)步和提升,這次發(fā)布的就是Nitro V5。

與上代相比,Nitro V5采用的晶體管數(shù)量翻倍,內(nèi)存速度提高了50%,PCIe帶寬也實(shí)現(xiàn)了翻倍。反映到性能方面,PPS網(wǎng)絡(luò)性能提高60%,延遲降低30%,此外,能耗比也將提升大約30%。

首發(fā)采用Nitro V5的就是這款叫C7gn的EC2實(shí)例,它采用的處理器是Graviton3,作為一款網(wǎng)絡(luò)優(yōu)化型實(shí)例,帶寬提升到了200Gbps,各項(xiàng)參數(shù)相較于上代的C6gn有不小提升。

第二位重磅登場(chǎng)的其實(shí)是新一代的Arm處理器Graviton3E。

Graviton2相較于Graviton1提升很大,Graviton3相較于Graviton2有25%的性能優(yōu)勢(shì),今年,很多人期待的是Graviton4,但這次只有Graviton3E。

Graviton3E是Graviton3的一個(gè)變種,主要優(yōu)化了在浮點(diǎn)運(yùn)算和向量運(yùn)算場(chǎng)景中的表現(xiàn),這種都是高性能計(jì)算領(lǐng)域特別強(qiáng)調(diào)的能力。

圖中展示的性能提升僅限于在高性能計(jì)算領(lǐng)域,比如有分子動(dòng)力學(xué)GROMACS、金融期權(quán)定價(jià)FINANCIAL OPTIONS PRICING等等場(chǎng)景。

為Graviton3E首發(fā)護(hù)航的就是HPC7g實(shí)例,它同時(shí)還采用了Nitro V5。對(duì)了,這就說明Nitro V5是專門給所有7代主機(jī)準(zhǔn)備的。

第二,看網(wǎng)絡(luò)創(chuàng)新方面的創(chuàng)新

網(wǎng)絡(luò)部分,Peter重點(diǎn)介紹了SRD(Scalable Reliable Datagram)的重要性,并表示,EFA、EBS和ENA都用上了自家的SRD。

EFA是亞馬遜云科技的高性能網(wǎng)卡,主要面向HPC和AI集群場(chǎng)景,它依靠Nitro來Offload,繞過內(nèi)核,以此來提供更高的穩(wěn)定性,更高的吞吐帶寬和更低的延遲。

EFA優(yōu)勢(shì)很明顯,但由于跟TCP有一些不同,所以,真正用的時(shí)候,只有少數(shù)對(duì)延遲特別敏感的應(yīng)用才有可能來適配它,為了能讓人用上EFA,亞馬遜云科技也對(duì)接了HPC生態(tài)。

SRD在降低EBS寫延遲方面效果顯著,如上圖所示,它能將極少數(shù)(P99.999)會(huì)出現(xiàn)的35ms延遲降低五倍,并且能將整體的延遲水平降到一個(gè)全新的水平。

SRD除了可以幫EBS降低延遲,還能提高吞吐帶寬,如上圖,采用了SRD的io2,其IOPS和帶寬提升了四倍。

Peter還表示,此后新發(fā)布的EBS io2都會(huì)支持SRD,并且,不會(huì)給用戶帶來額外成本,應(yīng)用本身無感知,用就行了。

與EFA不同,ENA(Elastic Network Adapter)才是大多數(shù)人要用的網(wǎng)絡(luò)服務(wù),亞馬遜云科技把SRD裝了進(jìn)去ENA之后,發(fā)布了一個(gè)叫ENA Express的新東西。

其主要價(jià)值也是降低延遲和提升帶寬,其中,帶寬直接從原來的5GB/s提升到了25GB/s。

對(duì)于用戶來說,也是只管用就行了,應(yīng)用方面不需要單獨(dú)作出調(diào)整。

第三部分,機(jī)器學(xué)習(xí)方面的創(chuàng)新。

這部分,Peter重點(diǎn)介紹了如何提高機(jī)器學(xué)習(xí)訓(xùn)練效率的問題。

如上圖所示的是機(jī)器學(xué)習(xí)模型精度對(duì)訓(xùn)練時(shí)間的影響,16位計(jì)算精度的訓(xùn)練速度快(也省顯存),但損失函數(shù)的值收斂不夠,也就是說,訓(xùn)練出來的模型會(huì)很不準(zhǔn)。

32位計(jì)算精度可以,但比較費(fèi)時(shí)間,浪費(fèi)時(shí)間就意味著會(huì)更費(fèi)資源,更費(fèi)錢,為了保證精度的同時(shí)能縮短訓(xùn)練時(shí)間,人們搞出了混合精度的做法。

為了進(jìn)一步減少訓(xùn)練時(shí)間,還有了叫STOCHASTIC ROUNDING的做法,這個(gè)具體是什么,我實(shí)在是聽不懂,有點(diǎn)超綱了,大概知道這是一個(gè)優(yōu)化訓(xùn)練過程的思路。(懂的大佬能用白話解釋一下嗎?)

不過,提高訓(xùn)練效率的另外一個(gè)思路是橫向擴(kuò)展,用多臺(tái)服務(wù)器來一起做訓(xùn)練。雖然集群運(yùn)算的效率高,但集群信息交換同步的問題也很大,因?yàn)樾畔⒔粨Q同步本身就會(huì)消耗很多時(shí)間。

Peter介紹了一個(gè)叫Ring of Rings(環(huán)中環(huán)?)的技術(shù)來解決信息交換同步效率差的問題。

相較于傳統(tǒng)的Single Ring的方案,能提高信息交換同步的效率,能把集群規(guī)模做的更大。

目前,Ring of Rings技術(shù)支持開源的機(jī)器學(xué)習(xí)模型PyTorch,能把PyTorch的信息同步交換速度提高75%。

這么好的技術(shù),怎么才能用上呢?

于是Peter就介紹了新推出的Trn1n實(shí)例,它的芯片自然是去年發(fā)布的Trainium芯片,網(wǎng)絡(luò)部分采用的是增強(qiáng)的1600 Gbps的EFA網(wǎng)絡(luò),這種實(shí)例更適合用分布式集群來訓(xùn)練超大模型。

第四部分,軟件運(yùn)行方面的創(chuàng)新。

這部分主要談的是亞馬遜云科技引以為傲的Serverless服務(wù)Lambda,具體說是減少Lambda運(yùn)行軟件應(yīng)用時(shí)的冷啟動(dòng)時(shí)間。

此前發(fā)布的Firecracker其實(shí)也做了一些優(yōu)化,而今天又再進(jìn)一步,這就是新發(fā)布的AWS Lambda SnapStart,它能把冷啟動(dòng)的時(shí)間縮短90%。

至于具體的技術(shù)實(shí)現(xiàn)的話,大致原理就是用了Snapshot快照技術(shù)來加快或者說繞開運(yùn)行時(shí)環(huán)境初始化的時(shí)間。

關(guān)于Peter介紹的主要內(nèi)容就先記錄到這里。

以下是這兩天的主要日程,喜歡熬夜的朋友可以蹲一下,我就不熬夜了。

我個(gè)人關(guān)注的會(huì)是CEO和CTO的演講,渠道方面的不感興趣,機(jī)器學(xué)習(xí)部分會(huì)酌情看一下,主要是預(yù)計(jì)我能聽懂的不多orz。

最后,順手貼一個(gè)注冊(cè)觀看鏈接:

https://www.awsevents.cn/reInvent2022/registerSignUp.aspx?s=7982&smid=15580
分享到

zhupb

相關(guān)推薦