熱插拔硬盤

隨著服務器應用、技術的不斷發(fā)展,企業(yè)對服務器的性能提出了新的要求。而且由于用戶對網絡的依賴性比以前更強,所以對服務器系統(tǒng)的穩(wěn)定性、安全性要求也較以前大大提高。這樣一來,對服務器其它配件支持熱插拔技術的呼聲也就越來越高了,因為現(xiàn)在服務器系統(tǒng)主要出現(xiàn)故障的配件不再僅是硬盤系統(tǒng)了,而更多的可能是內存、電源和風扇等。

熱插拔部位之風扇

熱插拔風扇可以說是這項技術里最簡單的了,但越是簡單的東西往往也就越重要,現(xiàn)在的服務器風扇已經不再是風扇這么簡單了,現(xiàn)在已經演變成了整個服務器的散熱系統(tǒng),散熱系統(tǒng)的好壞將直接影響服務的性能,以及使用壽命等。

熱插拔風扇

熱插拔部位之電源

服務器中,服務器電源也是不可以小看的。許多磁盤陣列和其他架裝系統(tǒng)含有多個電源輸入,可以同時為這些設備提供電源支持。這樣,一般情況下,只要出現(xiàn)故障的電路不超過一個,系統(tǒng)就能繼續(xù)正常運行。因此,如果服務器中的所有硬件有2個或3個電源輸入,則要求至少有兩個或者三個獨立的電路支持,以確保電路設計中沒有單點故障。

熱插拔電源

內存?zhèn)浞菹到y(tǒng)正常工作時,控制模塊通過調整電流調節(jié)器/隔離器的導通程度,使系統(tǒng)均衡地使用每個電源模塊–每個電源模塊向系統(tǒng)提供相同的電流,這種工作模式稱為"電流共享"。當其中某一電源模塊出現(xiàn)故障時,切斷電流調節(jié)器/隔離器,使故障電源從電源系統(tǒng)中隔離出來,并進行故障報警。冗余電源系統(tǒng)中的每個供電模塊均可以熱插拔,一旦某個供電模塊損壞,就能在不停電情況下完成維修工作,而絲毫不影響系統(tǒng)的正常工作。為了滿足熱插拔的要求,冗余電源系統(tǒng)的控制模塊應能夠限制電源模塊的電流突變,防止電源模塊插入和拔出時對負載總線形成浪涌電流。

熱插拔部位之內存

熱插拔電源在確保服務器系統(tǒng)可靠性上已顯得越來越重要了,已成為服務器的標準技術。盡管不同檔次的服務器所支持的熱插拔配件并不完全一樣,但對于像硬盤、電源和風扇的熱插拔技術支持已成為比較常見的服務器配置了。不過要實現(xiàn)內存的熱插拔,問題就不是那么簡單了。上面提到的風扇,硬盤,電源,從原理上講,還是與PCI相關的總線技術有關。但是內存要實現(xiàn)熱插拔,就遠不止這么簡單。那些不安分的巨頭服務器商就開始了自己的內存熱插拔技術的研究,相繼出臺了這樣和那樣的技術,不過比起比起傳統(tǒng)的ECC技術來說,性能是提高了不少。但是很多時候是整個內存條子損壞,那么前面的努力也就白費了。所以是不是也需要想硬盤一樣,用條子做成內存?zhèn)浞?、內存鏡像來支持內存的熱插拔呢?答案是肯定的,但道路是曲折的。

在線內存?zhèn)浞菔且环N高級別的內存保護技術,需要注意的是必須成對安裝雙列直插式內存模塊(Dual In-line Memory Module,DIMM)的內存條。每個DIMM必須是同一型號的,而且容量相同,這一點似乎和硬盤區(qū)別不大,否則內存系統(tǒng)的性能會受到影響。如果一共有三組內存條組,把C組作為在線備份內存,其內存容量總合要是A、B兩組的容量總合之和。進行內存熱備時,做熱備份的內存在正常情況下是不使用的,也就是說在系統(tǒng)里是看不到C內存容量的。每個內存通道中有一個DIMM不被使用,預留為備份內存。芯片組中設置有內存校驗錯誤次數(shù)的閾值, 即每單位時間發(fā)生錯誤的次數(shù)。當工作內存的故障次數(shù)達到這個"容錯閾值",系統(tǒng)開始進行雙重寫動作,一個寫入主內存,一個寫入熱備內存,當系統(tǒng)檢測到兩個內存數(shù)據(jù)一致后,熱備內存就代替主內存工作,故障內存被禁用,這樣就完成了熱備內存接替故障內存工作的任務,有效避免了系統(tǒng)由于內存故障而導致數(shù)據(jù)丟失或系統(tǒng)宕機。這個做熱備的內存容量應大于等于所在通道的最大內存條的容量,以滿足內存數(shù)據(jù)遷移的最大容量需求。也就是象硬盤的RAID。

另一種方式就是服務器內存鏡像。在線備份內存模式只能對發(fā)生單比特錯誤的數(shù)據(jù)提供保護,像鏡像內存方式還可以用來保護發(fā)生多bit錯誤的數(shù)據(jù)。正因為如此,內存鏡像和內存熱備份很適合于商業(yè)應用,因為它除了正常維護之外,不需要在內存檢修上花費額外的時間。這種技術的出現(xiàn),是由于隨著服務器系統(tǒng)總線提高,內存?zhèn)鬏數(shù)臄?shù)據(jù)陪增,會出現(xiàn)不知什么原因遇到了許多內存保護和修復技術都不能完全修復的情況。諸如其熱更換熱添加、熱插拔RAID內存,這些就相對好理解一些,不過需要注意的一點是,許多企業(yè)實際上實現(xiàn)的只是有限的內存熱插拔,只能拔掉特定的內存條,而不能隨意拔掉其他內存條。

內存鏡像是將內存數(shù)據(jù)做兩個拷貝,分別放在主內存和鏡像內存中。系統(tǒng)工作時會向兩個內存中同時寫入數(shù)據(jù),因此使得內存數(shù)據(jù)有兩套完整的備份。由于采用通道間交叉鏡像的方式,所以每個通道都有一套完整的內存數(shù)據(jù)拷貝。

內存鏡像原理

內存鏡像有效避免了由于內存故障而導致數(shù)據(jù)丟失。鏡像內存和主內存互成對角線分布,如果其中一個通道出現(xiàn)故障不能繼續(xù)工作,另一個通道仍然具有故障通道的內存數(shù)據(jù),有效防止了由于內存通道故障導致的數(shù)據(jù)丟失,極大提升了服務器可靠性。鏡像內存的容量要大于等于主內存容量,當系統(tǒng)工作時,鏡像內存不會被系統(tǒng)識別。因此在投資方面,做內存鏡像數(shù)據(jù)保護的投資是沒有內存保護功能的一倍。

熱備和內存鏡像是內存熱插拔的必要條件,從理論上和技術上完全能夠實現(xiàn),那么,內存的熱插拔相信也是以后服務器的發(fā)展必然。

編輯按

人們一直渴望著當人體的某個部位出現(xiàn)問題的時候,我們不用忍受漫長的治療過程,而是直接換一個新的,這個幻想在人身上恐怕很難實現(xiàn),但在服務器上,我們已經做到了這點,熱插拔技術使我們的服務器更加的靈活,更加的穩(wěn)定,相信在不遠的將來服務器的CPU甚至是服務器上的任何部件都可以實現(xiàn)熱插拔。

分享到

zhaohang

相關推薦