大多數(shù)人以為硬驅(qū)的故障率就像澡盆曲線。首先,在早期故障期,你會看到許多驅(qū)動出現(xiàn)故障。過了這段時期,故障率便會降低。另一方面,驅(qū)動耗盡前故障率呈穩(wěn)步上升的趨勢。沒有任何研究表明這種假設(shè)成立??傮w而言,人們認為驅(qū)動故障會隨著使用時間的延長而增加。
企業(yè)驅(qū)動可靠性
對比兩個研究,就會發(fā)現(xiàn)100萬 MTBF Cheetah驅(qū)動與30萬小時MTBF數(shù)據(jù)表更為接近。這意味著企業(yè)和客戶驅(qū)動在年故障率方面很相似,特別是當二者的量相當時。據(jù)NetApp的技術(shù)策略總監(jiān)透露,存儲數(shù)列控制驅(qū)動類型故障的方式讓顧客一直抱著這樣的想法:越貴的的驅(qū)動越可靠。存儲行業(yè)不可告人的秘密之一便是大多數(shù)企業(yè)級與用戶級驅(qū)動的大部分組件都相同。不過,他們的外部接口(FC, SCSI, SAS或SATA)以及固件設(shè)計的優(yōu)先級別在實際使用有助于對二者進行區(qū)分。
數(shù)據(jù)安全性和RAID
Schroeder博士的研究覆蓋了最大的高性能計算實驗室中大型RAID系統(tǒng)中所使用的企業(yè)驅(qū)動。通常,我們主觀上認為這類數(shù)據(jù)在精選過的RAID模式中更安全,不過該研究的結(jié)果卻有點出人意料。
磁盤更換的時間分布顯示了正在下降的風險率,即磁盤更換前預(yù)期的使用時間隨時間增長。
這意味著數(shù)列中一個驅(qū)動出現(xiàn)故障會增加其他驅(qū)動出現(xiàn)故障的可能性。距離前次故障的時間越長就意味著距離下次更換的時間越長。當然,這關(guān)系到RAID的重建進程。經(jīng)歷第一次故障之后,在一小時內(nèi)出現(xiàn)另一次驅(qū)動故障的幾率增加了四倍。而在十小時內(nèi),出現(xiàn)故障的幾率就將下降到兩倍。
溫度
最離奇的報道之一來自谷歌。調(diào)查者從SMART——內(nèi)置于大多數(shù)硬驅(qū)中的自我監(jiān)控,分析和報告技術(shù)——中獲取溫度讀數(shù),繼而發(fā)現(xiàn)較高的溫度與較高的故障率并無關(guān)聯(lián)。溫度似乎對較舊的驅(qū)動的影響并不大。
SMART足夠智能嘛?
答案是否定的。SMART旨在盡早捕獲磁盤錯誤,以便用戶可以備份數(shù)據(jù)。不過,據(jù)谷歌透露,出現(xiàn)故障的硬盤中有三分之一以上都沒有觸發(fā)SMART警報。這并不奇怪,許多業(yè)內(nèi)人士早就料到了這一點。SMART被優(yōu)化的目的是捕獲機械故障,可是很多磁盤仍然是電子的。這就是為什么在出現(xiàn)數(shù)據(jù)一致性問題的時候無法察覺一些操作和環(huán)境方面的故障。如果你正使用SMART來告知可能出現(xiàn)的故障,又想確保數(shù)據(jù)安全,恐怕要另外再部署冗余層。
原文鏈接:http://www.tomshardware.com/reviews/ssd-reliability-failure-rate,2923-2.html