2023年1月11日,英特爾正式推出第四代英特爾至強(qiáng)可擴(kuò)展處理器(代號“Sapphire Rapids”),憑借英特爾 AMX、英特爾 IAA、英特爾 QAT、英特爾 DLB、英特爾 DSA、英特爾 SGX、以及英特爾至強(qiáng)CPU MAX系列這七大“算力神器”,共同構(gòu)成新一代處理器的最大特色。
加速器針對數(shù)據(jù)中心最常用的工作負(fù)載進(jìn)行加速,它可以更高效、以更低能耗處理這些工作負(fù)載。以前需要多個核心完成的工作,現(xiàn)在需要更少甚至單個核心即可完成。這是加速器的最核心價值,也被認(rèn)為是新一代處理器最吸引用戶的關(guān)鍵原因之一。
發(fā)布后僅八周,采用該款產(chǎn)品的處理器設(shè)計(jì)數(shù)量創(chuàng)造了英特爾至強(qiáng)系列的歷史紀(jì)錄,其可用平臺及出貨平臺數(shù)量也創(chuàng)下新高。如今,大多數(shù)主流OEM和ODM廠商都在出貨基于該處理器的系統(tǒng)設(shè)計(jì),前十大云服務(wù)提供商也將在今年部署基于該款處理器的云實(shí)例。
在新處理器得到越來越多應(yīng)用的同時,一批采用新技術(shù)、、利用新處理器優(yōu)勢特性的案例也浮出水面。其中,關(guān)注度最高的當(dāng)屬人工智能引擎——英特爾高級矩陣擴(kuò)展(英特爾AMX)加速器。
AMX:支持推理和訓(xùn)練,支持INT8和BF16精度
以ChatGPT引爆的新一輪人工智能熱潮的背景之下,英特爾在新一代處理器的每個核心都嵌入了AMX加速引擎,使得英特爾至強(qiáng)不僅能用來做推理,還能用來處理一些機(jī)器學(xué)習(xí)訓(xùn)練負(fù)載,這也讓英特爾至強(qiáng)成為最適合機(jī)器學(xué)習(xí)的通用x86處理器。
與上一代相比,第四代至強(qiáng)處理器推理性能提高了5.7-10倍
與上一代相比,第四代至強(qiáng)處理器訓(xùn)練性能提高了3.5-10倍
此前的至強(qiáng)通過AVX-512來提高向量運(yùn)算性能,而現(xiàn)在的AMX則支持矩陣運(yùn)算,計(jì)算效率得到大幅提升。
AMX支持INT8和BF16兩種計(jì)算精度,兩種使用頻次都非常高。
其中,INT8常用于推理。眾所周知,在日常生產(chǎn)環(huán)境中,推理的使用頻次要遠(yuǎn)高于訓(xùn)練的次數(shù),比如,每次刷臉完成身份驗(yàn)證、社交軟件里每一次語音轉(zhuǎn)文字以及文字轉(zhuǎn)語音等都是推理過程。
混合精度浮點(diǎn)BF16也常用在訓(xùn)練場景中,并且使用頻次在近年來逐漸增加。其主要優(yōu)勢是在可以在保持較高精度的同時,提高計(jì)算速度和減少存儲空間。與AVX-512相比,每一個計(jì)算周期的計(jì)算性能都實(shí)現(xiàn)了大幅提升。
對這兩種精度的支持,意味著至強(qiáng)處理器在實(shí)際應(yīng)用中可以覆蓋更多場景。
在互聯(lián)網(wǎng)場景中的使用
阿里在淘寶中就使用了AMX加速器,其INT8精度和軟件優(yōu)化技術(shù)能夠支撐淘寶的“地址標(biāo)準(zhǔn)化”服務(wù)。具體而言,就是幫助淘寶買家在填寫收貨地址的時候,提供相應(yīng)的個性化提示,從而幫買家更快地填寫地址。而在技術(shù)層面,這主要涉及到語義分析等技術(shù),AMX則提高了語義分析的性能。
此外,阿里還將AMX的BF16計(jì)算精度用于手機(jī)淘寶首頁個性化推薦的場景,配合軟件層面上的優(yōu)化,每天承載著高達(dá)億次的請求,得益于AMX所帶來的提升,最終性能達(dá)到了原來的3倍。
騰訊太極機(jī)器學(xué)習(xí)平臺支撐的搜索和廣告業(yè)務(wù)也基于AMX加速器實(shí)現(xiàn)了性能提升。其搜索不僅需要搜索的數(shù)量極多,同時也對搜索延遲的要求高。太極機(jī)器學(xué)習(xí)平臺支撐的搜索業(yè)務(wù)部署在騰訊云上,所使用的云主機(jī)就基于第四代英特爾至強(qiáng)而構(gòu)建,配合軟件上的優(yōu)化,不僅幫降低了所使用的CPU的數(shù)量,同時性能也有2到3倍的提升。
在生成式模型、大語言模型中的使用
從英特爾專家的介紹中了解到,注意力機(jī)制在現(xiàn)如今最火的生成式模型、大語言模型中應(yīng)用的非常普遍,而恰好第四代英特爾至強(qiáng)可擴(kuò)展處理器非常適合用于這些模型。
Stable Diffusion是AIGC領(lǐng)域最火的開源大模型之一,支持用自然語言生成圖片。Stable Diffusion的技術(shù)構(gòu)成上大量使用了注意力機(jī)制,而注意力機(jī)制需要矩陣相乘和指數(shù)運(yùn)算能力。而新一代英特爾至強(qiáng)的AMX BF16可用于加速矩陣計(jì)算,AVX-512可以用來加速指數(shù)計(jì)算。
經(jīng)測試發(fā)現(xiàn),配合英特爾PyTorch擴(kuò)展插件用Stable Diffusion,生成512×512圖片吞吐性能提高了3.82倍,720P圖片的吞吐性能提高了5.26倍。
在OCR場景中的應(yīng)用
英特爾幫助更多企業(yè)獨(dú)立軟件服務(wù)商使用至強(qiáng)處理器處理OCR類的工作負(fù)載,實(shí)現(xiàn)降本增效。
比如,在亞信開發(fā)的電信智能營業(yè)廳方案中,用OCR來識別客戶提交上來的身份證件和工商營業(yè)執(zhí)照圖片,OCR這種推理負(fù)載的需求量非常大,每年大概需要2000萬次服務(wù)。當(dāng)把業(yè)務(wù)遷移到第四代至強(qiáng)可擴(kuò)展處理器上,并針對AMX做了優(yōu)化之后,性能實(shí)現(xiàn)了3.94倍的提升。
用友企業(yè)ERP軟件中有一個OCR模塊,該模塊主要是用于識別辦公和財(cái)務(wù)領(lǐng)域發(fā)票內(nèi)容,該業(yè)務(wù)每年需要支持3000萬次的服務(wù)請求。當(dāng)遷移到第四代至強(qiáng)可擴(kuò)展處理器之后,結(jié)合AMX的優(yōu)勢,實(shí)際性能達(dá)到了原來的3.83倍。
金蝶的企業(yè)ERP也有一個OCR模塊,當(dāng)遷移到第四代至強(qiáng)可擴(kuò)展處理器之后,一開始并沒有使用AMX,只用AVX-512就有了1.65倍的提升。當(dāng)用戶對掃描精度要求更高時,就開始用AMX支持的BF16精度,不僅精度滿足了需求,而且,性能也達(dá)到了原來的4.58倍。
醫(yī)療領(lǐng)域的東軟也在用OCR技術(shù)來識別票據(jù)相關(guān)資料,當(dāng)遷移到第四代至強(qiáng)可擴(kuò)展處理器而不做優(yōu)化時,性能提升比較有限,當(dāng)使用AMX時,性能達(dá)到了原來的2.29倍,最后配合軟件做優(yōu)化時,性能達(dá)到了原來的4.46倍。