Xeon Phi的總線結構不是完全不同于IBM的Cell處理器,其和AMD R600類似,采用512位帶寬的GDDR5雙環(huán)形總線,不同于Cell緩存部分由軟件進行管理,Xeon Phi帶有TLB頁表緩沖的512KB L2緩存是由硬件自動控制,不需軟件過多干預,緩存由標識目錄進行管理,使得任何獨立的訪問請求都可以訪問整個系統(tǒng)緩存。
除此之外還有一些很討巧的設計,和NVIDIA的Tesla類似,Xeon Phi的每個計算核心也都包含一個EMU擴展映射單元用于加速處理類似平方根、倒數(shù)和指數(shù)這樣的復雜數(shù)學運算。另外內(nèi)存控制器也不是集中在一起,而是位于環(huán)形總線的50個核心之間,這樣的設計可以大大降低延遲和數(shù)據(jù)請求需求。
如果50個核心都全部運行在2.5GHz的最高頻率,那么雙精度峰值計算能力則有可能高達1 TFLOP,并且最終產(chǎn)品規(guī)格會大于現(xiàn)在50核心規(guī)模,實際性能會更好。
不過在實際環(huán)境應用計算效率不可能達到100%,英特爾也著手優(yōu)化緩存架構,另外一方面當前設計沒有充分為單精度浮點計算優(yōu)化,而在這方面競爭對手 NVIDIA和AMD的產(chǎn)品在圖形代碼執(zhí)行效能上更好,英特爾也會通過進一步的縮減核心規(guī)模而增加向量單元數(shù)量來改善這方面的性能。