SPARC64 VI 具有很多優(yōu)點(diǎn):
1、增強(qiáng)了SPARC64 V 的高性能和高可靠性特性,通過(guò)單個(gè)CPU芯片中內(nèi)嵌的多核多線程技術(shù)進(jìn)一步提高性能。
2、芯片多核、每核雙線程,大容量片上高速緩存,都大大提高了芯片的性能。
3、多線程技術(shù)最小化 CPU 內(nèi)核的等待時(shí)間,增加了 CPU內(nèi)核的利用率。
4、大容量二級(jí)高速緩存極大降低了內(nèi)存延遲。
5、SPARC64 V 的高性能技術(shù),如超標(biāo)量、亂序執(zhí)行、分支預(yù)測(cè)和非阻塞緩存都得以延續(xù)。
采用高性能的 SPARC64 VI 芯片SPARC Enterprise ,可提供包括大規(guī)模交易處理在內(nèi)各種應(yīng)用所需的高超性能。
同時(shí),SPARC64 VI 機(jī)制可保證CPU內(nèi)部的數(shù)據(jù)傳輸和存儲(chǔ),不僅包括高速緩存,而且也包括算術(shù)邏輯單元 (ALU)以及寄存器。CPU 錯(cuò)誤通過(guò) ECC 數(shù)據(jù)糾正處理和指令重試技術(shù)恢復(fù)。即使不可恢復(fù)的錯(cuò)誤發(fā)生時(shí), CPU 也不會(huì)停止,只會(huì)動(dòng)態(tài)對(duì)受到影響的 CPU 內(nèi)核和高速緩存進(jìn)行降級(jí),然后繼續(xù)運(yùn)行。 每個(gè)CPU 也會(huì)繼續(xù)記錄所有的錯(cuò)誤信息,因此任何錯(cuò)誤原因都能迅速檢測(cè)出來(lái)。
SPARC64 VI的RAS 功能與大型機(jī) CPU相仿,可提供最為可靠的系統(tǒng)。
*1 奇偶錯(cuò)誤由硬件指令重試功能糾正 。
*2 “1路(way)”是高速緩存的一個(gè)單元。 SPARC64 VI 1級(jí)緩存包括2 個(gè)way單元,2級(jí)緩存 有12個(gè)way單元。
擴(kuò)展的數(shù)據(jù)保護(hù)提高業(yè)務(wù)連續(xù)性
高速緩存中的數(shù)據(jù)保護(hù)機(jī)制
雖然概率不高,但多數(shù)處理器電路故障會(huì)在高速緩存 (*3)中隨機(jī)出現(xiàn)。這將導(dǎo)致服務(wù)器運(yùn)行中斷或性能降低。因此緩存數(shù)據(jù)保護(hù)機(jī)制對(duì)企業(yè)系統(tǒng)十分關(guān)鍵。
1級(jí)緩存的指令處理組件由冗余和奇偶機(jī)制保護(hù),而數(shù)據(jù)處理組件使用ECC。在2級(jí)緩存中,指令和數(shù)據(jù)由ECC保護(hù)。因此,緩存中所有的1位錯(cuò)誤都可被檢測(cè)出來(lái)并進(jìn)行糾正。
如果1位錯(cuò)誤頻繁發(fā)生,那么緩存會(huì)動(dòng)態(tài)地進(jìn)行步進(jìn)降級(jí),每次降級(jí)一個(gè)單元。即使1個(gè)單元的2級(jí)緩存發(fā)生故障,剩余的 11 個(gè)單元 (總共 12個(gè)單元) 也會(huì)繼續(xù)運(yùn)行。在所有緩存單元都降級(jí)的罕見(jiàn)情況下,特定的 CPU 芯片會(huì)自動(dòng)被隔離。
這些機(jī)制保證了系統(tǒng)的連續(xù)性,系統(tǒng)保護(hù)消除了偶然故障的影響,減小了性能影響。而其他廠商CPU中類似的緩存故障會(huì)導(dǎo)致系統(tǒng)可用性和性能的降低。一般他們的整個(gè)系統(tǒng)必須重新啟動(dòng)和降級(jí),或由于故障,整個(gè) CPU 芯片立刻不可用。
*3: 隨機(jī)點(diǎn)不常發(fā)生的錯(cuò)誤會(huì)導(dǎo)致數(shù)據(jù)錯(cuò)誤。它們被稱作 “軟錯(cuò)誤” ,由輻射、電磁干擾和受熱產(chǎn)生。
ALU 和寄存器上的數(shù)據(jù)保護(hù)機(jī)制
SPARC64 VI 算術(shù)邏輯單元 (ALU) 和寄存器使用奇偶校驗(yàn)機(jī)制保護(hù)數(shù)據(jù)。每個(gè) ALU 處理指令,而寄存器臨時(shí)存儲(chǔ) ALU的輸入數(shù)據(jù)。
SPARC64 VI 的寄存器由高度可靠的電路構(gòu)成。所有1位的錯(cuò)誤都可通過(guò)奇偶校驗(yàn)檢測(cè)出來(lái)。檢測(cè)出錯(cuò)誤后,數(shù)據(jù)重新從緩存讀取并再次處理。
SPARC64 VI 驗(yàn)證奇偶值以檢查 ALU中處理的輸入數(shù)據(jù)是否損壞。這種高級(jí)的校驗(yàn)意味著計(jì)算時(shí)任何1位錯(cuò)誤都會(huì)被檢測(cè)出來(lái)。檢測(cè)出錯(cuò)誤后,相關(guān) ALU 和寄存器中的所有數(shù)據(jù)將被清除。然后從1級(jí)緩存重新讀取數(shù)據(jù)再次執(zhí)行指令。
一般其他廠商ALU中 CPU 的1位錯(cuò)誤無(wú)法檢測(cè)。他們的CPU 架構(gòu)無(wú)法從寄存器傳遞奇偶位到 ALU。奇偶位也無(wú)法與 ALU 計(jì)算結(jié)果相關(guān)聯(lián)。只對(duì) ALU 輸入之前和 ALU 輸出之后的數(shù)據(jù)進(jìn)行奇偶校驗(yàn),而對(duì)ALU 內(nèi)部的數(shù)據(jù)損壞無(wú)法檢測(cè)。
CPU 內(nèi)核降級(jí)
檢測(cè)到不可恢復(fù)的 CPU 錯(cuò)誤后,故障內(nèi)核被隔離,其他正常的內(nèi)核繼續(xù)保持運(yùn)行可用性。
記錄所有的處理器操作
SPARC64 VI 中的歷史電路機(jī)制可自動(dòng)記錄所有的 CPU 操作。歷史電路用于 CPU 故障調(diào)查和 CPU 可靠性的改進(jìn)。
如同飛行記錄儀一樣,每個(gè)歷史電路都定期維護(hù)記錄 (無(wú)需軟件干預(yù)或影響處理器操作)。因此任何錯(cuò)誤都能檢測(cè)出。歷史電路對(duì)快速準(zhǔn)確的錯(cuò)誤原因檢測(cè)十分關(guān)鍵。