在100K LMentry提示上,BLOOMZ模型(最多1760億個(gè)參數(shù))使用Habana Gaudi加速器對(duì)生成的語(yǔ)言輸出進(jìn)行的自動(dòng)評(píng)估。1
此外,Hugging Face亦介紹了Stability AI的Stable Diffusion,這是另一個(gè)用于從文本生成圖像的最先進(jìn)生成式AI模型之一,也是流行的?DALL-E圖像生成器的開(kāi)放訪問(wèn)替代方案,Stable Diffusion在內(nèi)置英特爾?高級(jí)矩陣擴(kuò)展(英特爾?AMX)的第四代英特爾至強(qiáng)可擴(kuò)展處理器上運(yùn)行的平均速度提高了3.8倍。
這種加速是在不更改任何代碼的情況下實(shí)現(xiàn)的。此外,通過(guò)使用英特爾Extension for PyTorch?with Bfloat16(一種用于機(jī)器學(xué)習(xí)的自定義格式),自動(dòng)混合精度可以再提速一倍,并將延遲減少到5秒——比初始基線32秒快了近6.5倍。用戶可在Hugging Face網(wǎng)站上一個(gè)基于英特爾CPU(第四代至強(qiáng)處理器)的實(shí)驗(yàn)性Stable Diffusion演示中進(jìn)行自行嘗試。
Stability AI創(chuàng)始人兼首席執(zhí)行官Emad Mostaque表示:“在Stability AI,我們希望讓每個(gè)人都能構(gòu)建自己的AI技術(shù)。英特爾已經(jīng)使Stable Diffusion模型能夠高效運(yùn)行在他們的異構(gòu)產(chǎn)品上——從第四代Sapphire Rapids CPU一直到像Gaudi這樣的加速器,因此是實(shí)現(xiàn)AI民主化的一個(gè)絕佳合作伙伴。我們期待在下一代語(yǔ)言、視頻和代碼模型等方面與他們合作?!?/p>
OpenVINO進(jìn)一步加速了Stable Diffusion推理。結(jié)合使用第四代至強(qiáng)CPU,它的速度幾乎比第三代英特爾?至強(qiáng)?可擴(kuò)展CPU提高了2.7倍。Optimum Intel是OpenVINO支持的一個(gè)工具,用于加速英特爾架構(gòu)上的端到端管道,它將平均延遲再降低3.5倍,總共降低近10倍。
解決價(jià)格、性能和效率問(wèn)題
此外,為滿足減少用電量的關(guān)鍵需求及不斷增長(zhǎng)的性能需求,還需要提供更加可持續(xù)的解決方案。一個(gè)開(kāi)放的生態(tài)系統(tǒng)可以消除阻礙進(jìn)步的障礙,使開(kāi)發(fā)人員能夠在每一項(xiàng)工作中都能夠使用最好的硬件和軟件工具進(jìn)行創(chuàng)新。
Gaudi2與第一代Gaudi構(gòu)建在相同的高效架構(gòu)上,可助力大規(guī)模工作負(fù)載的性能和效率達(dá)到全新高度,并在運(yùn)行AI工作負(fù)載時(shí)展現(xiàn)出強(qiáng)大的能效優(yōu)勢(shì)。
大規(guī)模AI工作負(fù)載還需要達(dá)到“一次構(gòu)建、隨處部署”方式,這種方式基于靈活、開(kāi)放的解決方案,能夠?qū)崿F(xiàn)更好的能效。第四代至強(qiáng)處理器是英特爾最具可持續(xù)性的數(shù)據(jù)中心處理器,有著更高的能效和節(jié)能效果。憑借英特爾AMX這樣的內(nèi)置加速器,在廣泛的AI工作負(fù)載和使用案例中,推理和訓(xùn)練性能可提高10倍2 ,同時(shí)其每瓦性能相較英特爾前代產(chǎn)品最多可提升14倍3。
附錄:
1 2023年3月24日進(jìn)行測(cè)量,使用部署于英特爾開(kāi)發(fā)者云上的Habana Gaudi2深度學(xué)習(xí)服務(wù)器,該服務(wù)器采用8個(gè)Gaudi2 HL-225H夾層卡和第三代英特爾至強(qiáng)處理器,運(yùn)行SynapseAI?軟件版本1.8.0,batch_size=1
2 參見(jiàn)intel.com/performanceindex:第四代英特爾至強(qiáng)可擴(kuò)展處理器部分的[A16]及[A17]
3 參見(jiàn)intel.com/processorclaims:第四代英特爾至強(qiáng)可擴(kuò)展處理器,E1
結(jié)果可能不同。