在存儲(chǔ)器糾錯(cuò)方面,Memory ProteXion技術(shù)比ECC技術(shù)更加有效,同時(shí)它使用的是標(biāo)準(zhǔn)的ECC 168腳內(nèi)存。它的工作方式有點(diǎn)類似在Windows NT的NTFS文件系統(tǒng)下的在線備份磁盤扇區(qū):當(dāng)操作系統(tǒng)在磁盤上檢測(cè)到壞的磁盤扇區(qū)時(shí),它將在另外的扇區(qū)中寫下這些數(shù)據(jù)留做備用。可以認(rèn)為內(nèi)存保護(hù)技術(shù)就是提供在線備份數(shù)據(jù)位。在一個(gè)2路交叉存取的內(nèi)存系統(tǒng)中,每片168線ECC內(nèi)存包含72位,但其實(shí)只有70位是用于數(shù)據(jù)存取和校驗(yàn)的,余下的2位是備用的,如圖3-13所示。

標(biāo)準(zhǔn)的ECC內(nèi)存雖然可以檢測(cè)出2位的數(shù)據(jù)錯(cuò)誤,但它只能糾正一位錯(cuò)誤。如果同時(shí)在內(nèi)存上有多位出錯(cuò),僅采用ECC技術(shù)的整塊內(nèi)存讀取就失敗了,此時(shí)唯有使系統(tǒng)臨時(shí)掛起來(lái),以盡量減少對(duì)內(nèi)存容量的需求,直到這個(gè)節(jié)點(diǎn)被更換。如果采用內(nèi)存保護(hù)技術(shù),那么就可以立即隔離這個(gè)失效的內(nèi)存,在空余的數(shù)據(jù)位重寫數(shù)據(jù)。通過(guò)這種方法可以在每4對(duì)168線內(nèi)存中修復(fù)4個(gè)4位連續(xù)的內(nèi)存錯(cuò)誤,是前面介紹的Chipkill內(nèi)存技術(shù)保護(hù)能力的2倍。而且它還無(wú)須添加另外的硬件,無(wú)須增加額外的費(fèi)用,由于獨(dú)立于操作系統(tǒng)工作,也不會(huì)給系統(tǒng)增加任何額外負(fù)擔(dān)。當(dāng)服務(wù)器下次重啟時(shí)會(huì)重新檢查內(nèi)存的狀態(tài),如果出現(xiàn)的是內(nèi)存軟錯(cuò)誤(臨時(shí)的),系統(tǒng)重啟后內(nèi)存的這些用于在線數(shù)據(jù)備份的數(shù)據(jù)位就重新釋放了,恢復(fù)空的狀態(tài)。如果是屬于硬故障,這些在線備份數(shù)據(jù)位還會(huì)繼續(xù)用來(lái)備份,直到更換為止。這種先進(jìn)技術(shù)可以減少停機(jī)時(shí)間,使服務(wù)器持續(xù)保持高效的計(jì)算平臺(tái)。這對(duì)于大型的數(shù)據(jù)庫(kù)系統(tǒng)尤其重要。

分享到

liukai

相關(guān)推薦