博客中提到,ARM服務(wù)器正在從單核設(shè)計(jì)逐步邁向高性能的多核SMP架構(gòu)。Cortex-A9 SMP的發(fā)布表明ARM開始在性能優(yōu)化的服務(wù)器處理器市場(chǎng)中開辟新天地。而且,對(duì)比傳統(tǒng)處理器,ARM在每單位功耗和成本上的性能都有明顯優(yōu)勢(shì)。

2011年,Annapurna Labs成立,四年后,被亞馬遜以3.5億美元收購(gòu),此次收購(gòu)使亞馬遜能夠開發(fā)定制芯片。2018年11月,亞馬遜發(fā)布第一代Amazon Graviton處理器,標(biāo)志著其開始通過定制化芯片提高云服務(wù)的差異化優(yōu)勢(shì)。

Annapurna Labs辦公室

在2018年開始做ARM芯片其實(shí)并不被看好,因?yàn)楦舯诟咄ǖ腁RM服務(wù)器正在因?yàn)閬?lái)自x86陣營(yíng)的壓力而偃旗息鼓。而亞馬遜云科技憑借作為云廠商的規(guī)模優(yōu)勢(shì),楞是堅(jiān)持自研ARM處理器,推出基于Amazon Graviton的云主機(jī)。

第一代Amazon Graviton處理器主要用于運(yùn)行Web服務(wù)器、容器化微服務(wù)等輕量級(jí)工作負(fù)載。與其他通用實(shí)例相比,雖然性能和功能特性都比較有限,但它勝在提供了顯著的成本節(jié)約,它為后續(xù)Amazon Graviton2和Amazon Graviton3奠定了基礎(chǔ)。

亞馬遜云科技的規(guī)模優(yōu)勢(shì),讓ARM服務(wù)器站了起來(lái)

從2020年推出Amazon Graviton2開始,亞馬遜云科技每年都會(huì)發(fā)布新的Amazon Graviton處理器,并且,每一代都比上一代有兩位數(shù)的性能提升,同時(shí)單位算力的功耗在持續(xù)下降。2023年推出的Amazon Graviton4,性能提升高達(dá)30%,最高核心數(shù)來(lái)到96個(gè),增幅達(dá)50%。

Graviton3

從x86向ARM架構(gòu)遷移會(huì)有額外成本。為了讓用戶更順滑的遷移,亞馬遜云科技不僅提供了遷移工具,構(gòu)建合作伙伴生態(tài)系統(tǒng)。而且,還讓Amazon RDS、Amazon ElastiCache等多種服運(yùn)行在Amazon Graviton上,客戶只需在控制臺(tái)中選擇Amazon Graviton實(shí)例,即可遷移,無(wú)需對(duì)應(yīng)用程序進(jìn)行重大修改。

Amazon Graviton支持多種廣泛應(yīng)用場(chǎng)景,包括HPC(如科學(xué)計(jì)算、基因組學(xué)分析、天氣預(yù)報(bào))、AI/ML、容器化應(yīng)用(支持Kubernetes等)、數(shù)據(jù)分析(EMR、Spark等框架),以及數(shù)據(jù)處理(支持ETL、數(shù)據(jù)清洗等),在性能和性價(jià)比上均表現(xiàn)卓越。

根據(jù)云成本管理和優(yōu)化平臺(tái)Vantage的一項(xiàng)調(diào)查顯示,2024第一季度,在Amazon EC2 M7系列(包括基于英特爾的M7i和基于AMD的M7a)通用實(shí)例的成本支出方面,采用Graviton的M7g系列已經(jīng)超過三分之一(34.5%)。

2024年第二季度,在Amazon RDS、Amazon ElastiCache和Amazon OpenSearch托管服務(wù)中,客戶選擇使用基于Amazon Graviton實(shí)例的數(shù)目已超越了Intel,越來(lái)越多客戶選擇基于Graviton的托管服務(wù)。

Epic Games 早在2021年就大規(guī)模應(yīng)用Amazon Graviton支持《堡壘之夜》。最新的Amazon Graviton4性能提升顯著,性價(jià)比提高25%以上,較Intel Sapphire Rapids和AMD Genoa提升30%-35%。如今,Epic Games在使用數(shù)萬(wàn)個(gè)Graviton芯片支持其所有虛幻引擎構(gòu)建的游戲服務(wù)器。

亞馬遜自身就是Amazon Graviton技術(shù)的深度用戶。2021年P(guān)rime Day首次采用Amazon Graviton2支持12項(xiàng)核心零售服務(wù)。到2024年,亞馬遜在Prime Day中使用的Graviton芯片數(shù)量超過25萬(wàn)個(gè),為5800多種Amazon.com服務(wù)提供支持,較2023年增長(zhǎng)一倍。

Amazon Graviton4在研發(fā)場(chǎng)景中也展現(xiàn)了強(qiáng)大的計(jì)算能力和彈性調(diào)度優(yōu)勢(shì)。據(jù)亞馬遜云科技博客顯示,EC2內(nèi)存優(yōu)化型X8g實(shí)例可顯著加速EDA電子設(shè)計(jì)自動(dòng)化場(chǎng)景,其實(shí)例集群在峰值時(shí)支持?jǐn)?shù)十萬(wàn)個(gè)內(nèi)核并行運(yùn)行,規(guī)模達(dá)到正常使用時(shí)的5倍,Graviton4支撐了亞馬遜云科技的大規(guī)模計(jì)算任務(wù)。

如果說(shuō)開始需要堅(jiān)持,后來(lái)則越發(fā)順風(fēng)順?biāo)?。如今,基于Amazon Graviton的Amazon EC2實(shí)例種類達(dá)150多個(gè),全球已部署超過200萬(wàn)片處理器,擁有超過五萬(wàn)家客戶,其中涵蓋了Amazon EC2前100客戶90%以上,享受著高達(dá)40%的額外性價(jià)比(x86)。

亞馬遜云科技首席工程師Ali Saidi負(fù)責(zé)Amazon Graviton系列處理器的技術(shù)開發(fā)

可以說(shuō),如果沒有亞馬云科技的規(guī)模,Amazon Graviton就不會(huì)有這么多用戶,Amazon Graviton的出貨量不會(huì)這么大,沒有規(guī)模優(yōu)勢(shì),每一塊Amazon Graviton的成本也不會(huì)降低,云的規(guī)模和芯片的規(guī)模促成了Amazon Graviton的成功。

云計(jì)算的規(guī)模支持亞馬遜云科技進(jìn)行硬件研發(fā),而硬件研發(fā)進(jìn)一步推動(dòng)技術(shù)創(chuàng)新,這些創(chuàng)新效益會(huì)隨著規(guī)模而擴(kuò)大。同時(shí),這些創(chuàng)新又反過來(lái)驅(qū)動(dòng)更大規(guī)模的云計(jì)算服務(wù)能力,形成了一個(gè)良性循環(huán)。

規(guī)模效應(yīng)在更多自研芯片上發(fā)揮作用

其實(shí),除了Amazon Graviton以外,亞馬遜云科技還自研了基于ASIC芯片的Amazon Nitro系統(tǒng),以及用于機(jī)器學(xué)習(xí)訓(xùn)練的Amazon Trainium和用于機(jī)器學(xué)習(xí)推理的芯片Amazon Inferentia,這些芯片也同樣受益于亞馬遜云科技的規(guī)模優(yōu)勢(shì)。

Amazon Nitro像是服務(wù)器里的小服務(wù)器,它系統(tǒng)提升了云計(jì)算的性能、安全性和效率。其主要功能包括:通過網(wǎng)絡(luò)硬件卸載提升網(wǎng)絡(luò)性能,降低延遲;通過存儲(chǔ)硬件加速提高存儲(chǔ)系統(tǒng)的讀寫效率;通過專用的硬件安全功能,增強(qiáng)數(shù)據(jù)保護(hù)。

最有意思的是,Amazon Nitro還通過Hypervisor卸載,將虛擬化相關(guān)的計(jì)算任務(wù)卸載到ASIC硬件中。這樣一來(lái),不僅提高了服務(wù)器的性能,還使得客戶幾乎可以100%地?fù)碛蟹?wù)器的全部硬件資源,就像喝酸奶不用舔瓶蓋一樣地舒暢。

截止到2024年1月,亞馬遜云科技在自己的數(shù)據(jù)中心里部署了超過2000萬(wàn)套Amazon Nitro系統(tǒng),結(jié)合包括Amazon Graviton在內(nèi)的多種處理器架構(gòu),打造出了非常多的Amazon EC2主機(jī)實(shí)例。

在AI和ML場(chǎng)景,亞馬遜云科技最早是在2018年發(fā)布針對(duì)推理的Amazon Inferentia芯片,在2022 re:Invent全球大會(huì)上發(fā)布了新一代推理芯片Amazon Inferentia 2。與Inf1實(shí)例相比,Inf2實(shí)例吞吐量提升4倍,延時(shí)只有1/10,每瓦性能提升45%。

2022年,亞馬遜云科技推出基于Trainium的Amazon EC2 Trn1實(shí)例。2023年推出了Amazon Trainium2 芯片,能用來(lái)訓(xùn)練具有數(shù)萬(wàn)億個(gè)參數(shù)或變量的大語(yǔ)言模型。第一代相比,它不僅性能提升多達(dá) 4 倍,能源效率也提升了多達(dá) 2 倍。

結(jié)合EC2 UltraClusters技術(shù),Trainium2 實(shí)例可以擴(kuò)展到多達(dá)10萬(wàn)的規(guī)模,結(jié)合Amazon Elastic Fabric Adapter(EFA)PB級(jí)網(wǎng)絡(luò)互聯(lián),提供高達(dá)65 exaflops的算力,用戶可按需獲得超級(jí)計(jì)算級(jí)別的性能。

Trainium系列ASIC專為機(jī)器學(xué)習(xí)優(yōu)化,提供高效的算力,可以降低訓(xùn)練和推理成本。在英偉達(dá)顯卡成本高昂的背景下,亞馬遜云科技的Trainium和Inferentia系列芯片提供了一個(gè)更有效益的技術(shù)方案,也強(qiáng)化AI的芯片供應(yīng)鏈。

結(jié)束語(yǔ)

通過過去十多年的實(shí)踐,亞馬遜云科技在自研芯片上取得了逐步的成就,當(dāng)然也練就了構(gòu)建了定制服務(wù)器能力。這種能力不僅降低了成本,提升了供應(yīng)鏈的靈活性,還實(shí)現(xiàn)了性能和安全的雙贏,更在機(jī)器學(xué)習(xí)領(lǐng)域體現(xiàn)出了巨大的潛力。

現(xiàn)在是2024年11月21號(hào),再過幾天就要召開2024年的re:Invent大會(huì)了,這次大會(huì)上可能會(huì)有新的Amazon Graviton處理器,可能會(huì)有新的訓(xùn)練和推理芯片,更多可能還是跟AI相關(guān)的產(chǎn)品服務(wù),而我,也將第一次去到拉斯維加斯現(xiàn)場(chǎng)感受這場(chǎng)“云計(jì)算春晚”。

如果碰巧看到這篇小作文的朋友也在現(xiàn)場(chǎng),可以考慮見個(gè)面,如果沒去現(xiàn)場(chǎng),也可以說(shuō)說(shuō)您對(duì)這次re:Invent的期待或者感興趣的點(diǎn)~

分享到

zhupb

相關(guān)推薦