“Versal FPGA與HBM解決了大數(shù)據(jù)和帶寬問(wèn)題,不僅取代了DDR4或其他外部芯片,提升了安全性和靈活性,同時(shí)還支持多種協(xié)議,減少了功耗、占板面積,降低了時(shí)延,幫助用戶實(shí)現(xiàn)性能的最大化?!?月31日,AMD自適應(yīng)和嵌入式計(jì)算事業(yè)部(AECG)高級(jí)產(chǎn)品線經(jīng)理Shyam Chander先生宣布了Alveo V80計(jì)算加速卡的特征與行業(yè)應(yīng)用實(shí)踐。
在推出Alveo V80加速卡的同時(shí),AMD還推出了基于GitHub的設(shè)計(jì)示例,讓硬件的開(kāi)發(fā)者更快上手并縮短產(chǎn)品上市時(shí)間,同時(shí)也使得之前熟練應(yīng)用Vivado工具的Alveo硬件開(kāi)發(fā)者能夠?qū)崿F(xiàn)價(jià)值最大化。
Alveo V80關(guān)鍵特點(diǎn)與性能提升
AMD Versal HBM自適應(yīng)SoC架構(gòu)為系列家族最大的器件Aveo V80加速卡提供支持。
觀察其總體架構(gòu)可以發(fā)現(xiàn),其特點(diǎn)之一是提供260萬(wàn)個(gè)LUT的可編程邏輯,作為集成型高帶寬網(wǎng)絡(luò)核心與加密引擎,二是具備多達(dá)10890個(gè)DSP計(jì)算邏輯片,提供較之前代產(chǎn)品3倍的DSP性能提升,消除各類瓶頸;三是采用PCle Gen5接口,支持64G傳輸速率,擴(kuò)展MCIO后提供超級(jí)通路,實(shí)現(xiàn)存儲(chǔ)卡的輕松集成與連接。
與上一代產(chǎn)品AMD Alveo U55C相比,AMD AlveoV80加速卡有了全面的提升:存儲(chǔ)器帶寬從200GB/s提高到820GB/s,邏輯密度從1.3M提升至2.6M,網(wǎng)絡(luò)帶寬從200GB/s升至800GB/s,PCle帶寬從32GB/s提升至64GB/s。
通常情況下,使用加速卡都離不開(kāi)與本地的CPU進(jìn)行連接,這將限制能夠使用到的GPU加速卡的數(shù)量。但是V80采取網(wǎng)絡(luò)附接加速卡方式避開(kāi)了這一限制,相比傳統(tǒng)加速卡,首先是低時(shí)延處理傳入的網(wǎng)絡(luò)數(shù)據(jù),其次它能避開(kāi)CPU至加速器的PCle瓶頸,三是消除了分立式網(wǎng)絡(luò)接口卡(NIC),最終實(shí)現(xiàn)每服務(wù)器的卡數(shù)和計(jì)算密度的最大化。這些功能還實(shí)現(xiàn)了在線加密、數(shù)據(jù)包監(jiān)控和傳感器處理。
HBM存儲(chǔ)相對(duì)DDR而言更為昂貴,但AMDAlveo V80采取靈活的存儲(chǔ)配置將HBM應(yīng)對(duì)非常廣泛的工作負(fù)載,一個(gè)有效的對(duì)策就是在做PCB的封裝尺寸時(shí)權(quán)衡HBM包裝時(shí)的芯片占板面積大小,同時(shí)以正確地配置FPGA資源作為補(bǔ)充。Shyam強(qiáng)調(diào),此次從UltraScale+U55C升級(jí)到AMD Versal V80,以性能的提升來(lái)對(duì)沖有限的成本增加,實(shí)現(xiàn)最高的性價(jià)比,而這也是推出Alveo V80的邏輯。
典型案例應(yīng)用
新款A(yù)lveo V80加速卡已經(jīng)在行業(yè)取得了一些成功案例。
在天文領(lǐng)域,聯(lián)邦科學(xué)與工業(yè)研究組織(CSIRO)是澳大利亞的一家國(guó)家級(jí)研究機(jī)構(gòu),它參與了世界最大的射電天文天線陣列的建設(shè),通過(guò)處理無(wú)線電波來(lái)研究早期宇宙并探索信息演化。
這個(gè)最大的射電天文天線陣列項(xiàng)目采用13.1萬(wàn)個(gè)天線來(lái)采集數(shù)據(jù),以15Tb/s的速度持續(xù)傳輸數(shù)據(jù),其工作負(fù)載主要是以DSP方式支持傳感器數(shù)據(jù)的實(shí)時(shí)傳輸與波束成型及連接,由420塊AMD AIveo U55C卡、21臺(tái)服務(wù)器和4個(gè)機(jī)架來(lái)提供支持。
在工作負(fù)載越來(lái)越復(fù)雜,而機(jī)架空間有限等情況下,CSIRO采用140張AMD AIveo 80計(jì)算加速卡與14臺(tái)的服務(wù)器進(jìn)行下一代傳感器處理,通過(guò)4x200G網(wǎng)絡(luò)連接,實(shí)現(xiàn)了低時(shí)延內(nèi)聯(lián)傳感器處理,強(qiáng)化的AMD Versal DSP計(jì)算邏輯片,每張卡的密集計(jì)算簡(jiǎn)化了集成、擴(kuò)展和集群,以幾乎相近的成本,在有限的空間內(nèi)迅速將算力提升達(dá)3倍之多。數(shù)據(jù)顯示,該項(xiàng)目功耗從以前的年520千瓦時(shí)降低為年236千瓦時(shí),加速器數(shù)量減少三分之二,服務(wù)器減少三分之一,功耗降低55%,總擁有成本也降低21%,而且功能靈活性極大提升。
建模和算法交易是金融科技企業(yè)采用加速卡趨之若鶩的場(chǎng)景。在建模仿真與回測(cè)方面,AMD Alveo V80加速卡支持密集計(jì)算的FPGA架構(gòu)與DSP,大數(shù)據(jù)集與歷史定價(jià)數(shù)據(jù)由HBM支持;在低時(shí)延算法交易方面,Alveo V80可以加速交易策略和期權(quán)定價(jià),另以752Mb的RAM用于定價(jià)數(shù)據(jù)、交易記錄,HBM則用于數(shù)據(jù)集與訂單信息。
由AMD AIveoV80推動(dòng)的網(wǎng)絡(luò)安全
企業(yè)客戶普遍重視網(wǎng)絡(luò)安全問(wèn)題,都希望能夠有非常堅(jiān)硬堅(jiān)固的網(wǎng)絡(luò)安全措施來(lái)防止網(wǎng)絡(luò)攻擊,保障數(shù)據(jù)安全,下一代防火墻也能在確保安全的同時(shí),進(jìn)一步提高能力。
Alveo V80能實(shí)現(xiàn)這樣的目標(biāo)——Versal芯片因?yàn)槟芴峁┯不腎P包括加密引擎,能實(shí)現(xiàn)800G的內(nèi)嵌IPSec,HBM則用于緩沖和流量表存儲(chǔ)來(lái)加強(qiáng)安全性能,同時(shí)還能與數(shù)據(jù)有更好的連接,更好地實(shí)現(xiàn)流量管理。
造福傳統(tǒng)FPGA開(kāi)發(fā)人員以及更多行業(yè)應(yīng)用
AlveoV80特別面向傳統(tǒng)FPGA開(kāi)發(fā)人員,以低時(shí)延、自定義數(shù)據(jù)類型、自定義數(shù)據(jù)遷移面向自定義工作負(fù)載,設(shè)計(jì)沿用開(kāi)發(fā)者非常熟悉的AMD Vivado套件,簡(jiǎn)化Alveo硬件設(shè)計(jì)框架硬件的開(kāi)發(fā),同時(shí)還支持定制和優(yōu)化。所有的這些示例和使用方式,在GitHub上都有展示,用戶也可以直接從上面下載。
“傳統(tǒng)上,構(gòu)建內(nèi)部的PCle卡需要經(jīng)過(guò)大量的RTL驗(yàn)證,還有很多系統(tǒng)集成的任務(wù)。如果使用V80,就可以避開(kāi)這種系統(tǒng)集成的任務(wù),可以實(shí)現(xiàn)非??焖俚牟渴?,再加上基于Supermicro和AMD EPYC處理器的錨服務(wù)器支持,甚至可以即刻部署?!闭劶靶乱淮亩ㄖ苹阅埽琒hyam Chander認(rèn)為Alveo V80真的是“大放異彩”——它不僅能夠大幅降低時(shí)延,在實(shí)時(shí)處理方面表現(xiàn)也非常優(yōu)秀。而這一切,都?xì)w功于硬化硬件的處理與靈活應(yīng)變的優(yōu)勢(shì)。
事實(shí)上,快速上市始終是Alveo V80的優(yōu)勢(shì)與非常重要的價(jià)值定位。AMD對(duì)于產(chǎn)品的全生命周期有非常重要的考慮和關(guān)照,通常不低于五年期的生命周期服務(wù)。
針對(duì)當(dāng)今豐富的AI加速器卡市場(chǎng),Shyam Chander表示Alveo系列產(chǎn)品側(cè)重內(nèi)聯(lián)網(wǎng)絡(luò)、實(shí)時(shí)處理場(chǎng)景,這是FPGA的自適應(yīng)SoC的優(yōu)勢(shì),Alveo V80不僅在計(jì)算和存儲(chǔ)器帶寬方面提供非常高的性價(jià)比,在工作負(fù)載方面也提供了非常高的價(jià)值,包括邏輯資源和低時(shí)延,以及各個(gè)節(jié)點(diǎn)的可擴(kuò)展性。他相信,Alveo系列在未來(lái)還將繼續(xù)呈現(xiàn)強(qiáng)大的生命力。