首先,第六代就不叫“至強(qiáng)可擴(kuò)展處理器(Xeon Scalable)”了,而是直接就叫“Xeon 6”,中文叫做英特爾至強(qiáng)6。
第六代至強(qiáng)將于今年陸續(xù)發(fā)布,如此前所說,會一分為二。
一種是全部采用P核的,代號為Granite Rapids,另一種全部采用E能效核,代號為Sierra Forest,兩類處理器都支持同樣的主板平臺。
全新的第六代至強(qiáng)經(jīng)采用Intel 3 制程工藝,本季度,英特爾即將開始生產(chǎn)代號為Sierra Forest的全E核的處理器。
這款處理器在云原生和容器場景,超大規(guī)模數(shù)據(jù)中心市場都有明顯優(yōu)勢,能將機(jī)架密度提高至2.7倍,每瓦性能提高2.5倍。
比如,一家電信運(yùn)營商原來有200個機(jī)架,機(jī)架里的服務(wù)器用的是第二代至強(qiáng),如果換成是第六代,則只需要72個機(jī)架。
占地空間減少的同時,性能和功能特性都沒有明顯變化,但此時要管理的網(wǎng)絡(luò)設(shè)別以及其他設(shè)備就減少了很多,最重要的是它能介紹1兆瓦的用電量。
預(yù)計在Sierra Forest推出后不久,英特爾還將發(fā)布全性能核的Granite Rapids。
在介紹Granite Rapids時,英特爾還是強(qiáng)調(diào)了在推理大模型時的性能表現(xiàn)。在介紹具體表現(xiàn)前,英特爾介紹了一個叫MXFP4的數(shù)據(jù)格式。
英特爾與ARM、高通和英偉達(dá)等公司合作制定這種新的數(shù)據(jù)格式,它能降低計算成本,提高效率。這個叫MXFP4的格式是一個4位的浮點(diǎn)數(shù)標(biāo)準(zhǔn),但它通過一些手段讓它不犧牲計算精度。
MXFP4是通過軟件來支持的,所以第四代、第五代至強(qiáng)也都能用,不是第六代專屬的。
基辛格展示了一個Demo,分別用第四代、第五代、第六代至強(qiáng)推理700億參數(shù)的Lamma2,與使用原來16bit格式的方案相比,使用了MXFP4的第四代至強(qiáng),推理時的Next Token的延遲降低了三倍。
換成第五代之后,推理時的Next Token的延遲降低了3.6倍,如果換成第六代至強(qiáng),延遲會降低6.4倍,此時的延遲來到88ms,也就是降到了100ms以下。
100ms是推理時Next Token延遲的一個分界線,在100ms以下一般就意味著性能可以用。也意味著,在低位數(shù)數(shù)據(jù)格式下,能夠顯著減少完成同樣任務(wù)的時間。
最后一句話總結(jié),就是性能版的第六代至強(qiáng),是完全可以推理700億參數(shù)大模型的,比第五代至強(qiáng)更善于推理。