Xeon Phi的總線結(jié)構(gòu)不是完全不同于IBM的Cell處理器,其和AMD R600類似,采用512位帶寬的GDDR5雙環(huán)形總線,不同于Cell緩存部分由軟件進(jìn)行管理,Xeon Phi帶有TLB頁表緩沖的512KB L2緩存是由硬件自動(dòng)控制,不需軟件過多干預(yù),緩存由標(biāo)識目錄進(jìn)行管理,使得任何獨(dú)立的訪問請求都可以訪問整個(gè)系統(tǒng)緩存。
除此之外還有一些很討巧的設(shè)計(jì),和NVIDIA的Tesla類似,Xeon Phi的每個(gè)計(jì)算核心也都包含一個(gè)EMU擴(kuò)展映射單元用于加速處理類似平方根、倒數(shù)和指數(shù)這樣的復(fù)雜數(shù)學(xué)運(yùn)算。另外內(nèi)存控制器也不是集中在一起,而是位于環(huán)形總線的50個(gè)核心之間,這樣的設(shè)計(jì)可以大大降低延遲和數(shù)據(jù)請求需求。
如果50個(gè)核心都全部運(yùn)行在2.5GHz的最高頻率,那么雙精度峰值計(jì)算能力則有可能高達(dá)1 TFLOP,并且最終產(chǎn)品規(guī)格會(huì)大于現(xiàn)在50核心規(guī)模,實(shí)際性能會(huì)更好。
不過在實(shí)際環(huán)境應(yīng)用計(jì)算效率不可能達(dá)到100%,英特爾也著手優(yōu)化緩存架構(gòu),另外一方面當(dāng)前設(shè)計(jì)沒有充分為單精度浮點(diǎn)計(jì)算優(yōu)化,而在這方面競爭對手 NVIDIA和AMD的產(chǎn)品在圖形代碼執(zhí)行效能上更好,英特爾也會(huì)通過進(jìn)一步的縮減核心規(guī)模而增加向量單元數(shù)量來改善這方面的性能。