現在,一年過去了,Gibson又接受了有關媒體的專訪,談及了PDSI學會是否找到了計算機出故障的原因以及在Peta級存儲設備的開發(fā)研究方面取得了什么樣的進展。
“我們在我們的系統(tǒng)中使用的驅動器的數量以及我們在那些驅動器上儲存的數據量在過去十年發(fā)生了急劇的增長,計算機的故障總量也增加了。”Garth Gibson這樣說到。
設定一個新的標準
Gibson是領先的大型存儲設備廠商Panasas公司的創(chuàng)始人兼首席執(zhí)行官,據Gibson說:“對于企業(yè)和科學研究界的大型用戶來說,2007年存儲設備業(yè)界發(fā)生的最重要的事情是并行NFS標準草案的完成。”他說他預計這個標準草案將于12月2日被提交給因特網工程特別工作組(Internet Engineering Task Force)審核。Gibson表示:“那將創(chuàng)立一個多源的、競爭性的、標準化文件系統(tǒng),可以滿足各種Peta級系統(tǒng)的要求?!彼€指出,到目前為止可縮放文件系統(tǒng)界還沒有形成一個開放的標準。 “因此,各個解決方案都有新機會?!?
這項標準其實是下一代NFS即NFS 4.1,它是為了替代NFS 4.0而開發(fā)的。Gibson說:“在4.1標準中的所有東西都是可選擇的,因此你可以象往常一樣繼續(xù)使用NFS 4.0,并且開始體驗新功能。”Gibson說,對于那些要求高性能、可縮放存儲系統(tǒng)但是不愿意進行巨額投資購買需要經常進行升級的所有權系統(tǒng)的企業(yè)來說,他相信新的開放標準最終會提供一個更好的投資回報。
彌補介質故障
為了解決計算機出現的故障,并試圖在更低故障率條件下建造大型存儲系統(tǒng),磁盤驅動器廠商們正在不斷對產品進行完善,研究人員們也不斷研究開發(fā)出新的技術。
Gibson說:“企業(yè)們將重新認識規(guī)模的含義,它們將采取措施改善存儲系統(tǒng)在故障方面的容許量?!蹦切┐胧┌涌炀S修系統(tǒng)的速度、大規(guī)模并行重建數據、增加對檢查點、完整性代碼和糾錯碼的使用以防止出現更多種類的故障,并將RAID磁盤的故障容錯率提高2倍到3倍。 雖然Gibson避免將這些故障稱作是重要故障,但是他聲稱這表明了提供更強大的糾錯機制已經形成一個總體趨勢。
更重要以及更值得一提的是,驅動器會變得更加可靠。不過問題仍然存在,我們在系統(tǒng)中使用的驅動器的數量和我們在驅動器上存儲的數據量在過去10年里發(fā)生了急劇的增長,這就導致故障總量也增加了很多。
企業(yè)和研究人員們特別關心的問題是介質故障率,也被稱作無法修正的讀誤差或者潛在介質故障。雖然這個問題并不是經常發(fā)生,但是時不時尤其是當里在使用Peta級系統(tǒng)時還是會不時發(fā)生這樣的故障并引發(fā)重要問題。
例如,Gibson解釋了這樣一種情況:
他說:“讓我們假定里在一個RAID種配備了14個磁盤,而且其中一個出現了故障?,F在你需要讀出13個磁盤的所有內容。 這個磁盤的容量可能是1TB。也就是說你要想重建系統(tǒng)必須讀出13TB的數據。 一般,在數據讀出量達到10TB到100TB之間時可能會出現一次介質故障。因此,也就是說在更低質量驅動器的重建過程中,你很可能無法讀到所有的內容。 可能只有一個扇區(qū)讀不出。即便是采用更高質量的驅動器,在10次重建中仍可能會遇到1次這種問題?!?
“如果你在重建過程中無法讀出某個磁盤扇區(qū)的內容,哪怕你只丟失了十億分之一的數據,你也無法進行重建。在目前,當你在重建過程中遇到故障時,是沒有任何解決辦法的。然后你可能不得不去找廠商,然后由生產廠商的技術人員設法弄清楚是哪個扇區(qū)出現故障,然后想辦法修復它?!?
那么廠商們?yōu)槭裁床荒苓M一步減少、消除或者補償潛在介質故障呢? Gibson說,問題是市場希望能夠從同樣的投資中獲得更多的信息。至于具體的做法,廠商們必須將數據更緊密地包在一起。 如果它們不需要保證返回給你的數據的正確性,它們可以迅速返回。因此,它們不能返回正確數據的比率是它們可以以多快的速度來提升容量以及在同樣的投資下能夠提供給你多少數據時所面臨的一個限制。”
廠商們可以將數據壓縮得更緊密一些。但是Gibson說,如果廠商們那么做的話,可能就會發(fā)生故障率上升的情況。因此,它們在進行數據壓縮的時候,必須控制相應的故障率處于可接受范圍內。
結果,包括Panasas公司在內的大型存儲設備廠商將開發(fā)新的保護機制來應對萬一發(fā)生介質故障時將故障的部分隔離開,對于企業(yè)用戶們來說,這可是大大的好消息。
從失敗中吸取教訓
在Peta級數據存儲業(yè)界的另一個重大進步是計算機故障數據存儲機構(the Computer Failure Data Repository)的建立。最終用戶們可以在這里發(fā)布它們的故障記錄供其他人研究和學習。Gibson說,那些信息是很重要的,因為改善系統(tǒng)質量的正確方法是真正理解它們是如何發(fā)生故障的。
Gibson說,雖然計算機問世已經有許多年了,但是大多數計算機科學家對于故障機制的認識卻比較有限。
由于廠商們常常不愿意或者不能夠共享故障數據,因此計算機故障數據存儲機構鼓勵并依賴最終用戶來提供那些故障數據,比如Los Alamos 國家實驗室 、太平洋西北國家實驗室、勞倫斯伯克萊試驗室和國家能源研究科學計算中心等。Los Alamos國家試驗室已經提供了試驗室的23個不同集群在9年時間中所遭遇的故障的數據,事實證明這些數據對于研究人員們來說是非常重要的。
他認為,通過弄清楚大型計算機系統(tǒng)或者群集系統(tǒng)為什么以及如何發(fā)生故障,廠商們就可以開發(fā)出相應的新技術來減少故障,這樣廠商們就可以在市場能夠承擔的價格范圍內生產出更大、更快、更高效和更可靠的計算機和存儲系統(tǒng)。