當你嘗試檢查一個SAN并且解決相關問題的時候,你也許會發(fā)現(xiàn)大多數(shù)情況下問題并不是由SAN引起的。我來解釋這是為什么。


    首先請假設你擁有一臺獨立的PC,而該PC使用的一個SCSI硬盤驅動器。接著再假設某一天你突然發(fā)現(xiàn)無法讀取該硬盤上的數(shù)據(jù)了。造成這個問題的原因有很多,有可能是磁盤驅動器本身壞了,當然還可能是你的數(shù)據(jù)線出現(xiàn)了問題,或者磁盤控制器壞了;還有可能是硬盤上的數(shù)據(jù)被清除,分區(qū)被刪除或者是損壞。我想告訴你的是,從無法訪問磁盤上的數(shù)據(jù)這個現(xiàn)象并不能推出一定就是硬盤本身出現(xiàn)了問題,因為還存在著很多非硬盤本身的原因。


    現(xiàn)在我們來看看在SAN上發(fā)生的類似的情況。我們知道,SAN只是一個基本的將一臺服務器和磁盤陣列或者其他存儲設備連接的方法。SAN的工作機制是允許服務器使用SCSI命令來和存儲設備進行通訊。


    假設服務器突然無法通過SAN讀取數(shù)據(jù)了,除了你的SAN可能出現(xiàn)了問題之外,還可能有一些非SAN的問題,例如你的數(shù)據(jù)本身出現(xiàn)了錯誤。除此之外,服務器和存儲單元之間的網(wǎng)絡連通性、數(shù)據(jù)被刪除、數(shù)據(jù)損壞、或者數(shù)據(jù)和服務器分離等等因素也會導致類似的情況。在這種情況下,你應該把SAN系統(tǒng)當成是直接把存儲設備和服務器連接的情況,按照這種思想來解決和SAN相關的問題。


    但是如果問題真的來自于SAN本身,那么該怎么辦呢?最好的策略是從SAN的中心開始檢查問題,然后向邊緣擴展。


    步驟1:先從光纖通道這一級別開始檢查。這么做的原因是,光纖通道的交換機處于SAN的中心位置,并且它也是保證服務器和存儲設備、以及服務器之間和存儲設備之間網(wǎng)絡連通性的設備。


    你應該首先確認中央交換機是否能和服務器以及各個存儲設備正常的物理連接。如果你能確定它們之間物理連接正常,那么你就可以確認問題不是出在光纖設備上。在檢查光纖設備的時候,你應該注意諸如不穩(wěn)定的連接、丟失的設備、不正確的區(qū)域配置以及不正確的交換機配置等地方。


    步驟2:使用一些診斷工具來測試交換機的通訊情況。這一步可以測試存儲設備是否和交換機正常通訊。如果沒有的話,那么就可以知道問題出在哪個部分。


    有可能是交換機和存儲設備之間的物理連接中斷、也可能是存儲軟件的配置不正確。而如果交換機可以和存儲設備進行通訊,但是無法和服務器通訊,那么問題就出現(xiàn)在交換機和服務器之間的連接上。這就是我推薦你從SAN的中心開始檢查問題的原因,只需要一些簡單的測試,你就可以排除在SAN中產(chǎn)生問題的一半的可能性(不管這些可能性是來自服務器端還是存儲設備端)。


    步驟3:如果你能確定問題出現(xiàn)在服務器和交換機之間,那么你的工作就會簡單一些。在這種情況下,請檢查下面這些可能的情況:


    導致問題發(fā)生的原因有可能是因為主機的總線適配器出現(xiàn)問題、驅動程序丟失或者配置不正確。除此之外還和你為服務器配置的訪問虛擬存儲設備的方法有關。你可以使用硬件廠商提供的診斷工具來判斷,也可以運行一些協(xié)議分析工具來判斷網(wǎng)絡接口卡(Network Interface Card:NIC)是否工作而確定驅動程序是否工作正常。如果NIC工作正常的話,那么問題就應該出在相關的系統(tǒng)配置上。


    簡而言之,檢查并解決SAN出現(xiàn)的問題的確是一個復雜的工作,不過你可以通過做兩件事情來減輕你的工作量。第一:先判斷到底是SAN本身的問題還是普通的存儲設備問題。第二:從SAN的中心開始檢查和解決問題,這樣你就可以快速的定位到大多數(shù)問題出現(xiàn)的地方。

分享到

多易

相關推薦