在2024亞馬遜云科技中國峰會(huì)上,亞馬遜云科技大中華區(qū)解決方案架構(gòu)總經(jīng)理代聞表示,“只有在云計(jì)算的環(huán)境下,才有機(jī)會(huì)做這樣的從應(yīng)用到CPU的全棧創(chuàng)新。自建機(jī)房和云服務(wù)的區(qū)別是柴油發(fā)電機(jī)和電網(wǎng)服務(wù)的區(qū)別?!?/p>
在代聞看來,亞馬遜云科技提供的是云計(jì)算服務(wù),所以能夠在不斷提升服務(wù)能力的前提下,保持內(nèi)部全棧創(chuàng)新的靈活性。同時(shí)能了解到使用最多的應(yīng)用及其資源消耗模式,以此來挑選對(duì)用戶來說收益最高的技術(shù)點(diǎn)來優(yōu)化,快速改進(jìn)軟件和硬件堆棧,甚至CPU設(shè)計(jì)。
確實(shí)如代聞所言,這樣的迭代在傳統(tǒng)的軟件硬件協(xié)作割裂的物理機(jī)房時(shí)代是不可想象的。說白了,云服務(wù)提供的本質(zhì)上是服務(wù),它天生與用戶和用戶應(yīng)用的關(guān)聯(lián)度更高,云服務(wù)商更懂用戶需求,所以能進(jìn)行更有針對(duì)性的創(chuàng)新。
我想,這就是云計(jì)算能持續(xù)、快速推動(dòng)技術(shù)創(chuàng)新的根本原因吧。
在2024年的亞馬遜云科技中國峰會(huì)上,代聞發(fā)表了題為《架構(gòu)演進(jìn)連接未來想象》的主題演講,詳細(xì)介紹了技術(shù)架構(gòu)演進(jìn)的三大主題需求:“基礎(chǔ)組件能力”、“架構(gòu)體系創(chuàng)新”和“多元技術(shù)融合”,并呼吁技術(shù)人員,要看清變化的技術(shù)和不變的需求,積極推進(jìn)架構(gòu)演進(jìn)。
基礎(chǔ)組件能力決定了架構(gòu)設(shè)計(jì)
所謂“基礎(chǔ)組件能力”是指的是云計(jì)算的最基礎(chǔ)組件,包括計(jì)算、存儲(chǔ)和網(wǎng)絡(luò),其中,又以計(jì)算作為最核心的組件。
說到亞馬遜云科技的計(jì)算,不得不提的有兩大創(chuàng)新,一個(gè)是Amazon Nitro系統(tǒng),一個(gè)就是自研的Arm處理器Graviton。
Amazon Nitro系統(tǒng)實(shí)現(xiàn)了計(jì)算資源的高效利用,它將虛擬化管理、網(wǎng)絡(luò)和存儲(chǔ)卸載到專用硬件上,幾乎消除了主機(jī)性能損耗。這種創(chuàng)新不僅提升了計(jì)算性能,還為用戶提供了更高的靈活性和安全性。
沒有Amazon Nitro之前,亞馬遜云科技用11年時(shí)間開發(fā)了70個(gè)EC2主機(jī)類型。而有了Amazon Nitro之后的6年時(shí)間里,EC2主機(jī)SKU就從70個(gè)擴(kuò)張到了750個(gè)??梢哉f,Amazon Nitro大大加速了EC2主機(jī)的開發(fā)速度。
其實(shí),亞馬遜云科技的存儲(chǔ)和網(wǎng)絡(luò)也都從Amazon Nitro中受益。
存儲(chǔ)部分,在最新的 Nitro 平臺(tái)支持下,單個(gè)虛擬機(jī)的最大 IOPS 可以到 400K,存儲(chǔ)帶寬可以到 100Gbps。亞馬遜云科技重寫了閃存轉(zhuǎn)換層(FTL)算法,并且將它是放到 Amazon Nitro 系統(tǒng)的芯片里,將SSD訪問延遲降低了60%,抖動(dòng)減少了75%。
網(wǎng)絡(luò)部分,Amazon Nitro讓主機(jī)獲得了更高的帶寬,從100Gbps、400Gbps,到現(xiàn)在的6.4Tbps。并且,最新Nitro支持的包轉(zhuǎn)發(fā)達(dá)到了30Mpps(Packets Per Second),即每秒處理三千萬個(gè)數(shù)據(jù)包。
除此之外,亞馬遜云科技還開發(fā)了SRD(Scalable Reliable Datagram)提高了網(wǎng)絡(luò)的利用率。重新開發(fā)了數(shù)據(jù)中心路由協(xié)議SIDR(Scalable Intent Driven Routing)來進(jìn)一步擴(kuò)大數(shù)據(jù)中心網(wǎng)絡(luò)的規(guī)模。
Amazon Nitro配合SRD以及SIDR技術(shù),支持亞馬遜云科技建成超大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò) UltraCluster。它支持的GPU實(shí)例可以到兩萬臺(tái),如果使用亞馬遜自研的機(jī)器學(xué)習(xí)訓(xùn)練Trn1實(shí)例,可以支持?jǐn)U展到三萬個(gè)Trainium 加速器。
至于Graviton處理器則是業(yè)內(nèi)另外一個(gè)傳奇。過去5年間,亞馬遜云科技發(fā)布了四代Graviton處理器,創(chuàng)建了150個(gè)EC2 實(shí)例種類,使用了超過 200 萬個(gè)處理器,擁有超過 50000 家客戶,這些客戶涵蓋了 EC2 最大的前 100 個(gè)客戶。
基于Graviton處理器的實(shí)例提供了非常高的性價(jià)比,是用戶降本增效的有力幫手。而且,其基于單物理核心提供單線程的技術(shù)可以提供更穩(wěn)定的性能表現(xiàn),配合多核心的優(yōu)勢,具備很高的擴(kuò)展性。
亞馬遜云科技的Graviton處理器是Arm服務(wù)器處理器陣營里的一面旗幟,它證明了 Arm服務(wù)器的可信性,也帶動(dòng)了Arm技術(shù)生態(tài)。Graviton之后,如今三大云服務(wù)商也全都推出了基于Arm的自研處理器芯片,甚至也有第三方的Arm芯片服務(wù)商。
代聞表示,這些創(chuàng)新的基礎(chǔ)組件能力決定了架構(gòu)設(shè)計(jì),而架構(gòu)體系創(chuàng)新可以拓展核心能力。那么,架構(gòu)體系的創(chuàng)新拓展了哪幾個(gè)核心能力?又是如何拓展核心能力的呢?
架構(gòu)體系創(chuàng)新拓展核心能力
在談到核心能力時(shí),代聞提到了韌性、彈性與效率。那么,要如何提高服務(wù)的韌性,提高服務(wù)的彈性與效率呢?
亞馬遜云科技通過Amazon IAM和單元架構(gòu)確保其系統(tǒng)的高韌性。Amazon IAM通過將系統(tǒng)設(shè)計(jì)為控制平面和數(shù)據(jù)平面兩部分,確保即使控制平面故障,各區(qū)域的身份驗(yàn)證和授權(quán)仍能正常運(yùn)行,提供高可靠的訪問控制服務(wù)。
此外,單元架構(gòu)(Cell-based Architecture)將數(shù)據(jù)平面細(xì)分為多個(gè)獨(dú)立單元,減少單點(diǎn)故障風(fēng)險(xiǎn),降低“爆炸半徑”。這種設(shè)計(jì)被廣泛應(yīng)用于Amazon EC2、Amazon EBS和Amazon Aurora等服務(wù),進(jìn)一步提升了系統(tǒng)的整體韌性和可靠性。
在提高彈性和效率方面,亞馬遜云科技提到了Firecracker、Amazon Lambda SnapStart和Caspian。
Firecracker是一種輕量級(jí)虛擬化技術(shù),可以快速啟動(dòng)和管理容器化工作負(fù)載。它基于KVM構(gòu)建微虛擬機(jī),具備多層隔離和保護(hù),顯著提升資源利用效率和安全性。
為了改善Java函數(shù)的冷啟動(dòng)問題,亞馬遜云科技推出了Amazon Lambda SnapStart。該技術(shù)通過Firecracker快照技術(shù),將啟動(dòng)速度提高了10倍,并且,完全無需修改代碼。
Caspian技術(shù)實(shí)現(xiàn)了Serverless數(shù)據(jù)庫的高效內(nèi)存管理,通過虛擬化和熱管理系統(tǒng),動(dòng)態(tài)調(diào)整內(nèi)存分配和數(shù)據(jù)庫實(shí)例遷移,提升彈性和資源利用效率。
這些技術(shù)共同提高了云服務(wù)的韌性、彈性和效率,為用戶提供更高效、安全的解決方案,構(gòu)建了云服務(wù)體系中的核心能力。
多元技術(shù)融合驅(qū)動(dòng)架構(gòu)創(chuàng)新
在更靠近應(yīng)用的層面上,代聞強(qiáng)調(diào)要將多元技術(shù)融合來驅(qū)動(dòng)架構(gòu)創(chuàng)新。
以生成式AI為代表的現(xiàn)代化應(yīng)用通常需要融合多種技術(shù),如果在企業(yè)落地智能聊天機(jī)器人,就需要底層技術(shù)能夠管理所有與AI對(duì)話相關(guān)的數(shù)據(jù)。代聞表示,面對(duì)這類復(fù)雜需求,先要拆解需求,再使用專門構(gòu)建的服務(wù)各個(gè)擊破,專門構(gòu)建的服務(wù)可以提供最優(yōu)的性能和成本。
生成式AI對(duì)數(shù)據(jù)架構(gòu)提出了新的要求。在用戶交互側(cè),要能做到更快的響應(yīng)。在后端處理環(huán)節(jié)會(huì)涉及數(shù)據(jù)流的更新和ETL處理,處理的過程要盡可能高效且可靠。在大模型和上下文數(shù)據(jù)管理方面,數(shù)據(jù)也要被有效管理,以確保模型能夠準(zhǔn)確、及時(shí)地提供所需的信息。
亞馬遜云科技通過RAG工程化手段融合多種數(shù)據(jù)庫。RAG技術(shù)需要協(xié)調(diào)多個(gè)數(shù)據(jù)源和架構(gòu)組件來實(shí)現(xiàn)高效的數(shù)據(jù)處理和知識(shí)提取。不同的應(yīng)用場景對(duì)平臺(tái)服務(wù)有不同的要求,這要求RAG技術(shù)能夠根據(jù)這些需求提供合適的解決方案。
為了解決數(shù)據(jù)同步問題,亞馬遜云科技推出了Zero-ETL技術(shù),它避免了傳統(tǒng)ETL過程的復(fù)雜性和低效性,通過自動(dòng)數(shù)據(jù)流動(dòng)實(shí)現(xiàn)高效的數(shù)據(jù)同步。目前,亞馬遜云科技已提供六項(xiàng)專門構(gòu)建的Zero-ETL能力,極大地提高了數(shù)據(jù)同步的效率。
隨后,代聞提到了亞馬遜云科技的優(yōu)良架構(gòu)體系(Well-Architected Framework),它涵蓋卓越運(yùn)營、安全、可靠、性能效率、可持續(xù)發(fā)展和成本優(yōu)化六個(gè)維度。架構(gòu)師在設(shè)計(jì)應(yīng)用架構(gòu)時(shí),需要在不同場景下對(duì)各種需求進(jìn)行折中和優(yōu)化。通過不斷演進(jìn)和優(yōu)化,幫助企業(yè)在云上實(shí)現(xiàn)高效、安全和可持續(xù)的發(fā)展。
結(jié)束語
在代聞看來,“基礎(chǔ)組件能力”、“架構(gòu)體系創(chuàng)新”和“多元技術(shù)融合”這三大需求是不會(huì)變的,會(huì)變的只會(huì)是具體的技術(shù)。他認(rèn)為,我們應(yīng)該看清變化的技術(shù)和不變的需求,積極推進(jìn)架構(gòu)演進(jìn),連接未來的想象。
最后,代聞向架構(gòu)師、工程師,以及任何有技術(shù)信仰的構(gòu)建者發(fā)出呼吁:你的每一行代碼,你的每一種選擇,你的每一個(gè)決定,都是寫給未來的信。
過去十年,云計(jì)算為創(chuàng)新和創(chuàng)業(yè)提供了前所未有的便利,未來十年,生成式AI讓我們有機(jī)會(huì)一起重塑各行各業(yè),想想10年后回首現(xiàn)在的自己,在這個(gè)特殊的時(shí)間點(diǎn),What Will You Build?