SPARC64 VI 具有很多優(yōu)點:


      1、增強了SPARC64 V 的高性能和高可靠性特性,通過單個CPU芯片中內嵌的多核多線程技術進一步提高性能。


      2、芯片多核、每核雙線程,大容量片上高速緩存,都大大提高了芯片的性能。


      3、多線程技術最小化 CPU 內核的等待時間,增加了 CPU內核的利用率。


      4、大容量二級高速緩存極大降低了內存延遲。


      5、SPARC64 V 的高性能技術,如超標量、亂序執(zhí)行、分支預測和非阻塞緩存都得以延續(xù)。


      采用高性能的 SPARC64 VI 芯片SPARC Enterprise ,可提供包括大規(guī)模交易處理在內各種應用所需的高超性能。


 




     


      同時,SPARC64 VI 機制可保證CPU內部的數(shù)據(jù)傳輸和存儲,不僅包括高速緩存,而且也包括算術邏輯單元 (ALU)以及寄存器。CPU 錯誤通過 ECC 數(shù)據(jù)糾正處理和指令重試技術恢復。即使不可恢復的錯誤發(fā)生時, CPU 也不會停止,只會動態(tài)對受到影響的 CPU 內核和高速緩存進行降級,然后繼續(xù)運行。 每個CPU 也會繼續(xù)記錄所有的錯誤信息,因此任何錯誤原因都能迅速檢測出來。


      SPARC64 VI的RAS 功能與大型機 CPU相仿,可提供最為可靠的系統(tǒng)。



      *1 奇偶錯誤由硬件指令重試功能糾正 。
      *2 “1路(way)”是高速緩存的一個單元。 SPARC64 VI 1級緩存包括2 個way單元,2級緩存 有12個way單元。






      擴展的數(shù)據(jù)保護提高業(yè)務連續(xù)性


      高速緩存中的數(shù)據(jù)保護機制


      雖然概率不高,但多數(shù)處理器電路故障會在高速緩存 (*3)中隨機出現(xiàn)。這將導致服務器運行中斷或性能降低。因此緩存數(shù)據(jù)保護機制對企業(yè)系統(tǒng)十分關鍵。


      1級緩存的指令處理組件由冗余和奇偶機制保護,而數(shù)據(jù)處理組件使用ECC。在2級緩存中,指令和數(shù)據(jù)由ECC保護。因此,緩存中所有的1位錯誤都可被檢測出來并進行糾正。


      如果1位錯誤頻繁發(fā)生,那么緩存會動態(tài)地進行步進降級,每次降級一個單元。即使1個單元的2級緩存發(fā)生故障,剩余的 11 個單元 (總共 12個單元) 也會繼續(xù)運行。在所有緩存單元都降級的罕見情況下,特定的 CPU 芯片會自動被隔離。


      這些機制保證了系統(tǒng)的連續(xù)性,系統(tǒng)保護消除了偶然故障的影響,減小了性能影響。而其他廠商CPU中類似的緩存故障會導致系統(tǒng)可用性和性能的降低。一般他們的整個系統(tǒng)必須重新啟動和降級,或由于故障,整個 CPU 芯片立刻不可用。



 


      *3: 隨機點不常發(fā)生的錯誤會導致數(shù)據(jù)錯誤。它們被稱作 “軟錯誤” ,由輻射、電磁干擾和受熱產生。


      ALU 和寄存器上的數(shù)據(jù)保護機制


      SPARC64 VI 算術邏輯單元 (ALU) 和寄存器使用奇偶校驗機制保護數(shù)據(jù)。每個 ALU 處理指令,而寄存器臨時存儲 ALU的輸入數(shù)據(jù)。


      SPARC64 VI 的寄存器由高度可靠的電路構成。所有1位的錯誤都可通過奇偶校驗檢測出來。檢測出錯誤后,數(shù)據(jù)重新從緩存讀取并再次處理。


      SPARC64 VI 驗證奇偶值以檢查 ALU中處理的輸入數(shù)據(jù)是否損壞。這種高級的校驗意味著計算時任何1位錯誤都會被檢測出來。檢測出錯誤后,相關 ALU 和寄存器中的所有數(shù)據(jù)將被清除。然后從1級緩存重新讀取數(shù)據(jù)再次執(zhí)行指令。


      一般其他廠商ALU中 CPU 的1位錯誤無法檢測。他們的CPU 架構無法從寄存器傳遞奇偶位到 ALU。奇偶位也無法與 ALU 計算結果相關聯(lián)。只對 ALU 輸入之前和 ALU 輸出之后的數(shù)據(jù)進行奇偶校驗,而對ALU 內部的數(shù)據(jù)損壞無法檢測。






      CPU 內核降級


      檢測到不可恢復的 CPU 錯誤后,故障內核被隔離,其他正常的內核繼續(xù)保持運行可用性。


      記錄所有的處理器操作


      SPARC64 VI 中的歷史電路機制可自動記錄所有的 CPU 操作。歷史電路用于 CPU 故障調查和 CPU 可靠性的改進。


      如同飛行記錄儀一樣,每個歷史電路都定期維護記錄 (無需軟件干預或影響處理器操作)。因此任何錯誤都能檢測出。歷史電路對快速準確的錯誤原因檢測十分關鍵。


 


分享到

多易

相關推薦