雖然第四代和第五代都支持AMX和AVX-512指令集,但第五代英特爾至強(qiáng)可擴(kuò)展處理器,因?yàn)橛布?guī)格的提升,包括內(nèi)存帶寬和三級(jí)緩存容量的提升,最后讓AI推理性能顯著提高了42%,使得它成為更適合AI的服務(wù)器處理器。

除了硬件的提升,英特爾人數(shù)眾多的軟件團(tuán)隊(duì)還在x86架構(gòu)上進(jìn)行持續(xù)優(yōu)化。英特爾對(duì)開(kāi)源軟件的支持素來(lái)屬于行業(yè)模范,對(duì)于TensorFlow、PyTorch這類主流開(kāi)源機(jī)器學(xué)習(xí)框架的支持自不必說(shuō)。

英特爾市場(chǎng)營(yíng)銷集團(tuán)副總裁、中國(guó)區(qū)數(shù)據(jù)中心銷售總經(jīng)理兼中國(guó)區(qū)運(yùn)營(yíng)商銷售總經(jīng)理莊秉翰表示,英特爾在軟件生態(tài)上有很大投入,隨著第五代至強(qiáng)的發(fā)布,英特爾向社區(qū)上傳了300多個(gè)深度學(xué)習(xí)模型,支持50多個(gè)面向第五代至強(qiáng)優(yōu)化過(guò)的模型,這些都可以供開(kāi)發(fā)者調(diào)用。

此外,自家推出的OpenVINO可用于優(yōu)化深度學(xué)習(xí)推理在各種英特爾硬件,包括CPU、GPU、FPGA等芯片上的性能表現(xiàn)。當(dāng)然,想要讓CPU來(lái)跑大語(yǔ)言模型就不得不提oneDNN和oneCCL。

oneDNN(oneAPI Deep Neural Network Library)是一個(gè)開(kāi)源的跨平臺(tái)性能庫(kù),專為深度學(xué)習(xí)應(yīng)用而設(shè)計(jì)。oneDNN簡(jiǎn)化了開(kāi)發(fā)者優(yōu)化深度學(xué)習(xí)應(yīng)用的過(guò)程,同時(shí)最大化利用英特爾硬件的計(jì)算能力,提升深度學(xué)習(xí)模型在這些平臺(tái)上的性能。

oneCCL(oneAPI Collective Communications Library)是專為分布式和并行計(jì)算設(shè)計(jì)的一個(gè)庫(kù),它能使計(jì)算節(jié)點(diǎn)間的數(shù)據(jù)傳輸和同步變得簡(jiǎn)單高效,是HPC和大規(guī)模深度學(xué)習(xí)場(chǎng)景中不可或缺的組件,它使得基于CPU的大規(guī)模分布式推理成為可能。

談到大語(yǔ)言模型的推理就得介紹一個(gè)叫Token Latency的參數(shù),Token Latency指的是從輸入第一個(gè)token到模型生成第一個(gè)token的延遲。它是衡量大模型響應(yīng)速度的指標(biāo),也是考驗(yàn)CPU推理性能的指標(biāo)。

從英特爾專家的介紹中了解到,100ms是客戶業(yè)務(wù)的閾值,大于100ms時(shí)業(yè)務(wù)體驗(yàn)會(huì)比較差。所以,只要至強(qiáng)處理器能把大模型的Token Latency控制在100ms以下,那就能用來(lái)推理大模型。

從英特爾公布的測(cè)試數(shù)據(jù)來(lái)看,當(dāng)使用一臺(tái)基于第四代或者第五代至強(qiáng)的服務(wù)器來(lái)推理10億參數(shù)模型時(shí),Token Latency能控制在20ms以下。同樣是這臺(tái)服務(wù)器,如果用來(lái)推理60-70億參數(shù)模型時(shí),延遲就提高到了60ms左右,推理130億參數(shù)就達(dá)到了100ms。

如果想要推理300億參數(shù)的模型,同時(shí)想把延時(shí)控制在100ms以下的話,就需要兩臺(tái)基于第四代或者第五代至強(qiáng)的兩路服務(wù)器。當(dāng)然,如果選擇至強(qiáng)Max的方案,則只需要一臺(tái)兩路服務(wù)器即可??磥?lái),在推理性能上,一臺(tái)至強(qiáng)Max大概等于兩臺(tái)至強(qiáng)可擴(kuò)展處理器的方案。

最后,英特爾至強(qiáng)在推理700億參數(shù)模型時(shí),想要控制在100ms以下,就需兩臺(tái)基于至強(qiáng)Max的兩路服務(wù)器,或者4臺(tái)基于至強(qiáng)可擴(kuò)展處理器的兩路服務(wù)器。英特爾給出的結(jié)論顯示,英特爾至強(qiáng)在推理130億參數(shù)以下的大模型時(shí),性能表現(xiàn)良好。

實(shí)際落地中,英特爾和百度一起,使用四臺(tái)基于第五代英特爾至強(qiáng)可擴(kuò)展處理器的雙路服務(wù)器,支持了70B參數(shù)的模型,服務(wù)器間的互連采用了oneCCL和RDMA網(wǎng)絡(luò),并將延遲可控制在了100ms以內(nèi)。實(shí)際操作證明了GPU并不是大模型推理的唯一選擇,CPU也行。

英特爾專家表示,對(duì)于業(yè)務(wù)仍處于起步階段的公司而言,可以在綜合考慮各種方案的表現(xiàn),方案的成本,考慮資源是否能夠充分利用的前提下,再做出采購(gòu)選擇。此時(shí),用戶可以發(fā)現(xiàn),使用至強(qiáng)做推理是一更很穩(wěn)妥的選擇。

在實(shí)際落地中,百度云上使用四臺(tái)基于第五代英特爾至強(qiáng)的云主機(jī)來(lái)推理Llama2 70B時(shí),可以達(dá)到87.5ms的推理延遲。百度也表示,考慮部署和運(yùn)維等成本,一般企業(yè)導(dǎo)入基于至強(qiáng)的生成式AI服務(wù),能大幅降低初期投入成本。

從莊秉翰的介紹中了解到,英特爾有很多OEM伙伴都推出了基于第五代英特爾至強(qiáng)可擴(kuò)展處理器的一體機(jī),用來(lái)推理7B、13B,甚至34B的大模型,這些通用處理器都支持AMX、AVX-512指令集,可以用來(lái)滿足推理大模型的需求。

分享到

zhupb

相關(guān)推薦