其實(shí),今年二月份發(fā)布的是通用性更強(qiáng)的方案,而此次發(fā)布的第三代至強(qiáng)主要是面向四路和八路市場(chǎng)的處理器,主要應(yīng)用于高性能計(jì)算這類場(chǎng)景,與二月份的發(fā)布并不沖突。

不過(guò),英特爾也表示,今年下半年晚些時(shí)候會(huì)發(fā)布基于Ice Lake的單路和雙路版本,主打通用場(chǎng)景。2021年將發(fā)布下一代可擴(kuò)展處理器,從單路到八路全面覆蓋。

三年計(jì)劃了三代產(chǎn)品,英特爾產(chǎn)品迭代速度明顯加快,對(duì)用戶來(lái)說(shuō)是再好不過(guò)的事兒了,一方面產(chǎn)品性能步伐加快,帶來(lái)直接的性價(jià)比提升,另一方面,豐富的SKU給了用戶更多選擇,根據(jù)需求,選擇合適的方案也能帶來(lái)降本增效的效果,對(duì)整個(gè)行業(yè)的發(fā)展也能夠起到積極推動(dòng)作用。

此次發(fā)布的第三代至強(qiáng)可擴(kuò)展處理器包括白金8300系列,黃金6300和5300系列,其中8300系列有四路和八路兩種配置,最高28核心,6內(nèi)存通道,最大支持單路4.5TB內(nèi)存,標(biāo)稱TDP最高達(dá)250瓦。黃金6300和5300系列只有四路配置。

第三代至強(qiáng)可擴(kuò)展處理器主要強(qiáng)化了安全性和多核計(jì)算性能,適用于業(yè)務(wù)關(guān)鍵性負(fù)載,實(shí)時(shí)分析,機(jī)器學(xué)習(xí)以及混合云等工作負(fù)載。與五年前的平臺(tái)相比,平均性能提升1.9倍,跑數(shù)據(jù)庫(kù)的性能最高提升1.98倍,運(yùn)行的虛擬機(jī)的數(shù)量達(dá)到前者的2.2倍,作為市場(chǎng)上唯一可提供八路x86服務(wù)器處理器的平臺(tái),至強(qiáng)同時(shí)還集成了深度學(xué)習(xí)加速的功能。

從第一代至強(qiáng)可擴(kuò)展處理器開(kāi)始,至強(qiáng)就在往AI上靠,第一代加入了AVX-512指令,優(yōu)化了FP32計(jì)算能力,2019年第二代可擴(kuò)展處理器中引入了深度學(xué)習(xí)加速技術(shù)(Intel Deep Learning Boost),提升了Int8推理能力,第三代至強(qiáng)可擴(kuò)展處理器在深度學(xué)習(xí)加速技術(shù)中加入了Bfloat16數(shù)據(jù)格式。

BFloat是一種越來(lái)越流行的加速機(jī)器學(xué)習(xí)的浮點(diǎn)格式,最早出現(xiàn)在谷歌的TPU里,英特爾和ARM以及許多新的AI芯片公司也都將其視為AI加速架構(gòu)的核心功能之一,可見(jiàn)其重要性。對(duì)比BFloat16與FP32,BFloat16大多數(shù)情況下有FP32的準(zhǔn)確性,而效率要高于FP32,可以看做是FP32的改良版。

英特爾第三代至強(qiáng)可擴(kuò)展處理器在AI性能方面表現(xiàn)如何呢?BFloat16的加入,讓第三代可擴(kuò)展處理器提升了訓(xùn)練和推理方面的能力,從圖中可見(jiàn),CPU在推理方面的提升更多一些。與第二代可擴(kuò)展處理器上使用的FP32格式相比,訓(xùn)練性能最高能提升1.96倍,推理性能最高能提升1.9倍。另外,與上代相比,在圖像分類的訓(xùn)練性能提升了1.93倍,推理性能提升了1.7倍。

對(duì)開(kāi)發(fā)者來(lái)說(shuō),需要極少的代碼改動(dòng)就能用上新平臺(tái),所以,目前包括阿里云,螞蟻金服,騰訊云,東軟等國(guó)內(nèi)廠商都已經(jīng)用上了帶有Bfloat16的處理器,在推理和訓(xùn)練性能方面有近兩倍的提升。

AI作為最新最熱的工作負(fù)載類型之一,頗受英特爾的關(guān)注。英特爾一方面致力于把至強(qiáng)打造成最適合AI的CPU,同時(shí),還希望把GPU、FPGA等各種硬件加速方案組合在一起,共同解決AI工作負(fù)載。不過(guò),英特爾此次發(fā)布會(huì)中沒(méi)有提及GPU的細(xì)節(jié),只是說(shuō)Xe GPU正在開(kāi)發(fā)中,可能會(huì)在今年下半年的發(fā)布中做一些介紹。可以說(shuō),第三代至強(qiáng)可擴(kuò)展處理器是市場(chǎng)上AI能力最強(qiáng)的CPU,是最懂AI的CPU了。

第二代傲騰持久內(nèi)存

第三代至強(qiáng)可擴(kuò)展處理器同樣支持傲騰持久內(nèi)存,而傲騰持久內(nèi)存終于迎來(lái)了新一代產(chǎn)品——Optane Persistent Memory 200系列,傲騰持久內(nèi)存的提升可以按照內(nèi)存的要求來(lái)看,就是容量更大,性能更高。

上一代傲騰持久內(nèi)存配合第二代至強(qiáng)可擴(kuò)展處理器,單路最高能放6條512GB持久內(nèi)存,最大3TB持久內(nèi)存。200系列能在單路第三代至強(qiáng)可擴(kuò)展處理器上提供最高4.5TB內(nèi)存,包括3TB的傲騰持久內(nèi)存和普通的DRAM內(nèi)存,單條可用容量沒(méi)變,有128GB,256GB和512GB三個(gè)型號(hào),支持與普通DRAM公用內(nèi)存插槽,支持兩種內(nèi)存的混插。

另外,性能方面,帶寬平均比上代提升了25%,與主流的NAND SSD相比,可以把數(shù)據(jù)傳輸訪問(wèn)效率提升225倍。

傲騰持久內(nèi)存掉電不丟數(shù)據(jù),能加速系統(tǒng)故障之后重新啟動(dòng)的時(shí)間,未來(lái)可能會(huì)有越來(lái)越多的利用這一特性的應(yīng)用出現(xiàn)。

大容量?jī)?nèi)存的好處毋庸置疑,能更好地支持內(nèi)存數(shù)據(jù)庫(kù),能減少服務(wù)器數(shù)量,進(jìn)而還能減少License授權(quán)費(fèi)用,對(duì)TCO的好處是許多用戶選傲騰的重要原因。

PCIe 4.0終于來(lái)了

另外,英特爾還發(fā)布了D7-P5500和P5600兩個(gè)系列的NAND SSD,它采用了96層的TLC而不是QLC,接口協(xié)議方面,支持PCIe 4.0和NVMe 1.3c,4K隨機(jī)讀最高一百萬(wàn)IOPS,4K隨機(jī)寫(xiě)IOPS最高能達(dá)到26萬(wàn),延遲也有大幅降低,作為一款強(qiáng)調(diào)性能的產(chǎn)品,該系列SSD主要用在全閃存陣列當(dāng)中,支持人工智能和大數(shù)據(jù)分析等IO密集型場(chǎng)景。

2019年下半年以來(lái),市場(chǎng)上開(kāi)始出現(xiàn)PCIe 4.0 SSD,有消費(fèi)級(jí)的,也有企業(yè)級(jí)的SSD,這次應(yīng)該是英特爾首款PCIe 4.0 SSD,CPU平臺(tái)也會(huì)有一些支持,英特爾平臺(tái)對(duì)于PCIe 4.0的支持,標(biāo)志著市場(chǎng)真正開(kāi)始轉(zhuǎn)向4.0了。

首款面向AI優(yōu)化的FPGA-Stratix 10 NX

英特爾有一系列FPGA,而最新發(fā)布的FPGA-Stratix 10 NX是面向AI設(shè)計(jì)的,英特爾在其中嵌入了AI優(yōu)化模塊AI Tensor,與現(xiàn)有的Stratix 10 MX相比,前者的Int8計(jì)算性能要高出十五倍。

Stratix 10 NX在定位上是作為至強(qiáng)處理器的補(bǔ)充,專門(mén)針對(duì)特定應(yīng)用提供定制,為了進(jìn)一步優(yōu)化性能,英特爾重新設(shè)計(jì)了計(jì)算模塊(DSP模塊)。

在自然語(yǔ)言處理,在欺詐檢測(cè),在智慧城市等場(chǎng)景中,Stratix 10 NX的表現(xiàn)都幾倍于英偉達(dá)顯卡V100的表現(xiàn)。

盡管GPU是AI計(jì)算領(lǐng)域應(yīng)用的最為廣泛,但許多新的面向AI場(chǎng)景設(shè)計(jì)的芯片,包括Stratix 10 NX這類FPGA還有一些IPU之類的,在一些場(chǎng)景下的表現(xiàn)都優(yōu)于GPU,AI芯片會(huì)隨著AI計(jì)算負(fù)載的變化還繼續(xù)演進(jìn)。

分享到

zhupb

相關(guān)推薦