SPARC64 VI 具有很多優(yōu)點:
1、增強了SPARC64 V 的高性能和高可靠性特性,通過單個CPU芯片中內嵌的多核多線程技術進一步提高性能。
2、芯片多核、每核雙線程,大容量片上高速緩存,都大大提高了芯片的性能。
3、多線程技術最小化 CPU 內核的等待時間,增加了 CPU內核的利用率。
4、大容量二級高速緩存極大降低了內存延遲。
5、SPARC64 V 的高性能技術,如超標量、亂序執(zhí)行、分支預測和非阻塞緩存都得以延續(xù)。
采用高性能的 SPARC64 VI 芯片SPARC Enterprise ,可提供包括大規(guī)模交易處理在內各種應用所需的高超性能。
同時,SPARC64 VI 機制可保證CPU內部的數(shù)據(jù)傳輸和存儲,不僅包括高速緩存,而且也包括算術邏輯單元 (ALU)以及寄存器。CPU 錯誤通過 ECC 數(shù)據(jù)糾正處理和指令重試技術恢復。即使不可恢復的錯誤發(fā)生時, CPU 也不會停止,只會動態(tài)對受到影響的 CPU 內核和高速緩存進行降級,然后繼續(xù)運行。 每個CPU 也會繼續(xù)記錄所有的錯誤信息,因此任何錯誤原因都能迅速檢測出來。
SPARC64 VI的RAS 功能與大型機 CPU相仿,可提供最為可靠的系統(tǒng)。
*1 奇偶錯誤由硬件指令重試功能糾正 。
*2 “1路(way)”是高速緩存的一個單元。 SPARC64 VI 1級緩存包括2 個way單元,2級緩存 有12個way單元。
擴展的數(shù)據(jù)保護提高業(yè)務連續(xù)性
高速緩存中的數(shù)據(jù)保護機制
雖然概率不高,但多數(shù)處理器電路故障會在高速緩存 (*3)中隨機出現(xiàn)。這將導致服務器運行中斷或性能降低。因此緩存數(shù)據(jù)保護機制對企業(yè)系統(tǒng)十分關鍵。
1級緩存的指令處理組件由冗余和奇偶機制保護,而數(shù)據(jù)處理組件使用ECC。在2級緩存中,指令和數(shù)據(jù)由ECC保護。因此,緩存中所有的1位錯誤都可被檢測出來并進行糾正。
如果1位錯誤頻繁發(fā)生,那么緩存會動態(tài)地進行步進降級,每次降級一個單元。即使1個單元的2級緩存發(fā)生故障,剩余的 11 個單元 (總共 12個單元) 也會繼續(xù)運行。在所有緩存單元都降級的罕見情況下,特定的 CPU 芯片會自動被隔離。
這些機制保證了系統(tǒng)的連續(xù)性,系統(tǒng)保護消除了偶然故障的影響,減小了性能影響。而其他廠商CPU中類似的緩存故障會導致系統(tǒng)可用性和性能的降低。一般他們的整個系統(tǒng)必須重新啟動和降級,或由于故障,整個 CPU 芯片立刻不可用。
*3: 隨機點不常發(fā)生的錯誤會導致數(shù)據(jù)錯誤。它們被稱作 “軟錯誤” ,由輻射、電磁干擾和受熱產生。
ALU 和寄存器上的數(shù)據(jù)保護機制
SPARC64 VI 算術邏輯單元 (ALU) 和寄存器使用奇偶校驗機制保護數(shù)據(jù)。每個 ALU 處理指令,而寄存器臨時存儲 ALU的輸入數(shù)據(jù)。
SPARC64 VI 的寄存器由高度可靠的電路構成。所有1位的錯誤都可通過奇偶校驗檢測出來。檢測出錯誤后,數(shù)據(jù)重新從緩存讀取并再次處理。
SPARC64 VI 驗證奇偶值以檢查 ALU中處理的輸入數(shù)據(jù)是否損壞。這種高級的校驗意味著計算時任何1位錯誤都會被檢測出來。檢測出錯誤后,相關 ALU 和寄存器中的所有數(shù)據(jù)將被清除。然后從1級緩存重新讀取數(shù)據(jù)再次執(zhí)行指令。
一般其他廠商ALU中 CPU 的1位錯誤無法檢測。他們的CPU 架構無法從寄存器傳遞奇偶位到 ALU。奇偶位也無法與 ALU 計算結果相關聯(lián)。只對 ALU 輸入之前和 ALU 輸出之后的數(shù)據(jù)進行奇偶校驗,而對ALU 內部的數(shù)據(jù)損壞無法檢測。
CPU 內核降級
檢測到不可恢復的 CPU 錯誤后,故障內核被隔離,其他正常的內核繼續(xù)保持運行可用性。
記錄所有的處理器操作
SPARC64 VI 中的歷史電路機制可自動記錄所有的 CPU 操作。歷史電路用于 CPU 故障調查和 CPU 可靠性的改進。
如同飛行記錄儀一樣,每個歷史電路都定期維護記錄 (無需軟件干預或影響處理器操作)。因此任何錯誤都能檢測出。歷史電路對快速準確的錯誤原因檢測十分關鍵。