TPCx-BB是由國(guó)際標(biāo)準(zhǔn)化測(cè)試權(quán)威組織(TPC)發(fā)布的基于零售業(yè)場(chǎng)景構(gòu)建的端到端大數(shù)據(jù)測(cè)試基準(zhǔn),支持主流分布式大數(shù)據(jù)處理引擎,模擬了整個(gè)線上與線下業(yè)務(wù)流程,有30個(gè)查詢語(yǔ)句,涉及到描述性過(guò)程型查詢、數(shù)據(jù)挖掘以及機(jī)器學(xué)習(xí)的算法。
此次,阿里云參賽的是自研的神龍大數(shù)據(jù)加速引擎MRACC(ApasaraCompute MapReduce Accelerator)。MRACC針對(duì)大數(shù)據(jù)常用組件,如Spark、Hadoop、Alluxio等,結(jié)合自研神龍架構(gòu)的特性,進(jìn)行軟硬一體化優(yōu)化,形成獨(dú)一無(wú)二的性能優(yōu)勢(shì),最終,使復(fù)雜SQL查詢場(chǎng)景性能相比社區(qū)版spark提升2-3倍,使用eRDMA加速Spark性能提升30%。
具體來(lái)說(shuō),針對(duì)大數(shù)據(jù)任務(wù)重IO特性,阿里云MRACC在網(wǎng)絡(luò)和存儲(chǔ)方面結(jié)合云上的架構(gòu)優(yōu)勢(shì)進(jìn)行軟硬件加速,包括軟件的SQL引擎優(yōu)化,使用緩存、文件裁剪、索引等優(yōu)化手段,并嘗試將壓縮等運(yùn)算卸載到異構(gòu)器件;還使用eRDMA進(jìn)行網(wǎng)絡(luò)加速,將shuffle階段的數(shù)據(jù)交換運(yùn)行在eRDMA網(wǎng)絡(luò),使得延時(shí)降低、CPU利用率大幅提升。
據(jù)悉,TPCx-BB的測(cè)試結(jié)果,可以全面準(zhǔn)確的反映端到端的大數(shù)據(jù)系統(tǒng)的整體運(yùn)行性能,涵蓋了結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),能夠從客戶實(shí)際場(chǎng)景角度更全面的評(píng)估大數(shù)據(jù)系統(tǒng)軟硬件性能、性價(jià)比、服務(wù)和功耗等各個(gè)方面,對(duì)各行業(yè)的基礎(chǔ)設(shè)施選型有著重要參考意義。