中文字幕网伦射乱中文,中文字幕乱码高清完整版,亚洲熟妇av日韩熟妇av

從第一代到第四代，至強(qiáng)處理器機(jī)器學(xué)習(xí)計(jì)算性能不斷提升

2023年1月11日，英特爾正式推出第四代英特爾至強(qiáng)可擴(kuò)展處理器（代號(hào)“Sapphire Rapids”），憑借英特爾 AMX、英特爾 IAA、英特爾 QAT、英特爾 DLB、英特爾 DSA、英特爾 SGX、以及英特爾至強(qiáng)CPU MAX系列這七大“算力神器”，共同構(gòu)成新一代處理器的最大特色。

加速器針對(duì)數(shù)據(jù)中心最常用的工作負(fù)載進(jìn)行加速，它可以更高效、以更低能耗處理這些工作負(fù)載。以前需要多個(gè)核心完成的工作，現(xiàn)在需要更少甚至單個(gè)核心即可完成。這是加速器的最核心價(jià)值，也被認(rèn)為是新一代處理器最吸引用戶(hù)的關(guān)鍵原因之一。

發(fā)布后僅八周，采用該款產(chǎn)品的處理器設(shè)計(jì)數(shù)量創(chuàng)造了英特爾至強(qiáng)系列的歷史紀(jì)錄，其可用平臺(tái)及出貨平臺(tái)數(shù)量也創(chuàng)下新高。如今，大多數(shù)主流OEM和ODM廠商都在出貨基于該處理器的系統(tǒng)設(shè)計(jì)，前十大云服務(wù)提供商也將在今年部署基于該款處理器的云實(shí)例。

在新處理器得到越來(lái)越多應(yīng)用的同時(shí)，一批采用新技術(shù)、、利用新處理器優(yōu)勢(shì)特性的案例也浮出水面。其中，關(guān)注度最高的當(dāng)屬人工智能引擎——英特爾高級(jí)矩陣擴(kuò)展（英特爾AMX）加速器。

AMX：支持推理和訓(xùn)練，支持INT8和BF16精度

以ChatGPT引爆的新一輪人工智能熱潮的背景之下，英特爾在新一代處理器的每個(gè)核心都嵌入了AMX加速引擎，使得英特爾至強(qiáng)不僅能用來(lái)做推理，還能用來(lái)處理一些機(jī)器學(xué)習(xí)訓(xùn)練負(fù)載，這也讓英特爾至強(qiáng)成為最適合機(jī)器學(xué)習(xí)的通用x86處理器。

與上一代相比，第四代至強(qiáng)處理器推理性能提高了5.7-10倍

與上一代相比，第四代至強(qiáng)處理器訓(xùn)練性能提高了3.5-10倍

此前的至強(qiáng)通過(guò)AVX-512來(lái)提高向量運(yùn)算性能，而現(xiàn)在的AMX則支持矩陣運(yùn)算，計(jì)算效率得到大幅提升。

AMX支持INT8和BF16兩種計(jì)算精度，兩種使用頻次都非常高。

其中，INT8常用于推理。眾所周知，在日常生產(chǎn)環(huán)境中，推理的使用頻次要遠(yuǎn)高于訓(xùn)練的次數(shù)，比如，每次刷臉完成身份驗(yàn)證、社交軟件里每一次語(yǔ)音轉(zhuǎn)文字以及文字轉(zhuǎn)語(yǔ)音等都是推理過(guò)程。

混合精度浮點(diǎn)BF16也常用在訓(xùn)練場(chǎng)景中，并且使用頻次在近年來(lái)逐漸增加。其主要優(yōu)勢(shì)是在可以在保持較高精度的同時(shí)，提高計(jì)算速度和減少存儲(chǔ)空間。與AVX-512相比，每一個(gè)計(jì)算周期的計(jì)算性能都實(shí)現(xiàn)了大幅提升。

對(duì)這兩種精度的支持，意味著至強(qiáng)處理器在實(shí)際應(yīng)用中可以覆蓋更多場(chǎng)景。

在互聯(lián)網(wǎng)場(chǎng)景中的使用

阿里在淘寶中就使用了AMX加速器，其INT8精度和軟件優(yōu)化技術(shù)能夠支撐淘寶的“地址標(biāo)準(zhǔn)化”服務(wù)。具體而言，就是幫助淘寶買(mǎi)家在填寫(xiě)收貨地址的時(shí)候，提供相應(yīng)的個(gè)性化提示，從而幫買(mǎi)家更快地填寫(xiě)地址。而在技術(shù)層面，這主要涉及到語(yǔ)義分析等技術(shù)，AMX則提高了語(yǔ)義分析的性能。

此外，阿里還將AMX的BF16計(jì)算精度用于手機(jī)淘寶首頁(yè)個(gè)性化推薦的場(chǎng)景，配合軟件層面上的優(yōu)化，每天承載著高達(dá)億次的請(qǐng)求，得益于AMX所帶來(lái)的提升，最終性能達(dá)到了原來(lái)的3倍。

騰訊太極機(jī)器學(xué)習(xí)平臺(tái)支撐的搜索和廣告業(yè)務(wù)也基于AMX加速器實(shí)現(xiàn)了性能提升。其搜索不僅需要搜索的數(shù)量極多，同時(shí)也對(duì)搜索延遲的要求高。太極機(jī)器學(xué)習(xí)平臺(tái)支撐的搜索業(yè)務(wù)部署在騰訊云上，所使用的云主機(jī)就基于第四代英特爾至強(qiáng)而構(gòu)建，配合軟件上的優(yōu)化，不僅幫降低了所使用的CPU的數(shù)量，同時(shí)性能也有2到3倍的提升。

在生成式模型、大語(yǔ)言模型中的使用

從英特爾專(zhuān)家的介紹中了解到，注意力機(jī)制在現(xiàn)如今最火的生成式模型、大語(yǔ)言模型中應(yīng)用的非常普遍，而恰好第四代英特爾至強(qiáng)可擴(kuò)展處理器非常適合用于這些模型。

Stable Diffusion是AIGC領(lǐng)域最火的開(kāi)源大模型之一，支持用自然語(yǔ)言生成圖片。Stable Diffusion的技術(shù)構(gòu)成上大量使用了注意力機(jī)制，而注意力機(jī)制需要矩陣相乘和指數(shù)運(yùn)算能力。而新一代英特爾至強(qiáng)的AMX BF16可用于加速矩陣計(jì)算，AVX-512可以用來(lái)加速指數(shù)計(jì)算。

經(jīng)測(cè)試發(fā)現(xiàn)，配合英特爾PyTorch擴(kuò)展插件用Stable Diffusion，生成512×512圖片吞吐性能提高了3.82倍,720P圖片的吞吐性能提高了5.26倍。

在OCR場(chǎng)景中的應(yīng)用

英特爾幫助更多企業(yè)獨(dú)立軟件服務(wù)商使用至強(qiáng)處理器處理OCR類(lèi)的工作負(fù)載，實(shí)現(xiàn)降本增效。

比如，在亞信開(kāi)發(fā)的電信智能營(yíng)業(yè)廳方案中，用OCR來(lái)識(shí)別客戶(hù)提交上來(lái)的身份證件和工商營(yíng)業(yè)執(zhí)照?qǐng)D片，OCR這種推理負(fù)載的需求量非常大，每年大概需要2000萬(wàn)次服務(wù)。當(dāng)把業(yè)務(wù)遷移到第四代至強(qiáng)可擴(kuò)展處理器上，并針對(duì)AMX做了優(yōu)化之后，性能實(shí)現(xiàn)了3.94倍的提升。

用友企業(yè)ERP軟件中有一個(gè)OCR模塊，該模塊主要是用于識(shí)別辦公和財(cái)務(wù)領(lǐng)域發(fā)票內(nèi)容，該業(yè)務(wù)每年需要支持3000萬(wàn)次的服務(wù)請(qǐng)求。當(dāng)遷移到第四代至強(qiáng)可擴(kuò)展處理器之后，結(jié)合AMX的優(yōu)勢(shì)，實(shí)際性能達(dá)到了原來(lái)的3.83倍。

金蝶的企業(yè)ERP也有一個(gè)OCR模塊，當(dāng)遷移到第四代至強(qiáng)可擴(kuò)展處理器之后，一開(kāi)始并沒(méi)有使用AMX，只用AVX-512就有了1.65倍的提升。當(dāng)用戶(hù)對(duì)掃描精度要求更高時(shí)，就開(kāi)始用AMX支持的BF16精度，不僅精度滿(mǎn)足了需求，而且，性能也達(dá)到了原來(lái)的4.58倍。

醫(yī)療領(lǐng)域的東軟也在用OCR技術(shù)來(lái)識(shí)別票據(jù)相關(guān)資料，當(dāng)遷移到第四代至強(qiáng)可擴(kuò)展處理器而不做優(yōu)化時(shí)，性能提升比較有限，當(dāng)使用AMX時(shí)，性能達(dá)到了原來(lái)的2.29倍，最后配合軟件做優(yōu)化時(shí)，性能達(dá)到了原來(lái)的4.46倍。

分享到

zhupb

相關(guān)推薦

近期文章

熱門(mén)標(biāo)簽