亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理 陳曉建在亞馬遜云科技中國(guó)峰會(huì)上表示,“現(xiàn)如今,創(chuàng)新至關(guān)重要,而云技術(shù)能更快、更高效地幫助企業(yè)創(chuàng)新亞馬遜云科技廣泛和深入的服務(wù)可以讓客戶擺脫基礎(chǔ)架構(gòu)的束縛,專注于創(chuàng)新?!?/p>
事實(shí)上,亞馬遜云科技上的算力資源非常豐富多樣,在Amazon Nitro系統(tǒng)的幫助下,亞馬遜云科技開發(fā)了非常多的EC2實(shí)例類型,而且,在實(shí)例性能和整體安全性上都有了質(zhì)的提升。
為了降低算力資源的成本,亞馬遜云科技有包括Graviton系列ARM處理器芯片,還有用于機(jī)器學(xué)習(xí)訓(xùn)練的Trainium和用于機(jī)器學(xué)習(xí)推理的Inferentia,其中,自研的機(jī)器學(xué)習(xí)芯片都可以作為GPU的替代品。
在HuggingFace BERT模型訓(xùn)練時(shí),基于Trainium的Trn1實(shí)例和通用的GPU實(shí)例對(duì)比,在訓(xùn)練的吞吐率上面,單節(jié)點(diǎn)的吞吐率可以提升1.2倍,而多節(jié)點(diǎn)集群的吞吐率可以提升1.5倍,從成本考慮,單節(jié)點(diǎn)成本可以降低1.8倍,集群的成本更是降低了2.3倍。
增強(qiáng)型Trn1n實(shí)例的網(wǎng)絡(luò)帶寬躍升至1.6Tbps,可將萬余個(gè)Trainium芯片構(gòu)建在一個(gè)超大規(guī)模集群上,支持對(duì)超大模型進(jìn)行并行訓(xùn)練。增強(qiáng)型Trn1n實(shí)例可以用來訓(xùn)練參數(shù)規(guī)模越來越大的大模型。
基于第一代Inferentia的Inf1實(shí)例,與基于通用GPU的EC2實(shí)例相比,帶來了70%成本的降低?;贗nferentia2的實(shí)例在吞吐和延遲方面均有大幅優(yōu)化,甚至可以用來大規(guī)模部署復(fù)雜的模型,例如大型語(yǔ)言模型和Diffusion類模型。
Inferentia在設(shè)計(jì)的時(shí)候就考慮到了吞吐率和延遲的優(yōu)化,在推理BERT模型時(shí),In2實(shí)例的吞吐高出三倍,延遲降低了8.1倍,而成本只是通用GPU實(shí)例的1/4。在推理Stable Diffusion 2.1時(shí),Inf2實(shí)例可實(shí)現(xiàn)50%的成本節(jié)約。
除了自研芯片,亞馬遜云科技上還提供了第三方的訓(xùn)練和推理芯片。
比如,EC2 DL1實(shí)例是基于英特爾Habana Labs的Gaudi加速器,Gaudi既能用于訓(xùn)練,也能用于推理,采用Gaudi加速器的EC2 DL1,其性價(jià)比相較于用GPU的EC2實(shí)例可提高最高40%。
如果用戶還是想用GPU來做訓(xùn)練,那么也可以選擇亞馬遜云科技的EC2 P4系列實(shí)例,它采用的是英偉達(dá)的A100 GPU,如果想要做更大規(guī)模的訓(xùn)練,還可以將EC2 P4部署在 EC2 UltraCluster 的超大規(guī)模集群中。
至于最新的H100顯卡,也可以關(guān)注亞馬遜云科技的EC2 P5實(shí)例,目前,或許是H100的數(shù)量有限,亞馬遜云科技的EC2 P5實(shí)例也需要額外填表申請(qǐng)才能使用,開放使用也是時(shí)間問題。
正如陳曉建所言,“面對(duì)算力的需求井噴所帶來挑戰(zhàn),我們通過自研芯片提供更好的性價(jià)比,通過各種豐富的計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)等各種產(chǎn)品的組合應(yīng)對(duì)突發(fā)的算力需求,通過Serverless有效降低運(yùn)維的復(fù)雜性,從而簡(jiǎn)化算力的使用,全面滿足用戶的多樣化的算力需求?!?/p>
亞馬遜云科技非常務(wù)實(shí)地提供多種算力服務(wù)。
我們還注意到,Amazon EC2 G4ad 實(shí)例也用了AMD的顯卡,不過G4 實(shí)例主要是做推理和圖形加速的。前不久亞馬遜云科技負(fù)責(zé)EC2的Dave Brown出現(xiàn)了AMD發(fā)布會(huì)上,未來是否會(huì)推出基于MI300的EC2實(shí)例,也未可知。