由于應(yīng)用的可用性和災(zāi)難恢復(fù)能力越來越被看重,越來越多的公司開始采用雙站點策略。IBM被稱為地理分散并行系統(tǒng)(Geographically Dispersed Parallel Sysplex ,GDPS)的S/390多站點應(yīng)用可用性解決方案,將S/390并行Sysplex技術(shù)與遠程拷貝技術(shù)集成在一起,能夠提高應(yīng)用的可用性和災(zāi)難恢復(fù)能力。
IBM的存儲系統(tǒng)部在1994年推出了兩種遠程拷貝功能,一種被稱為PPRC(Peer-to-Peer Remote Copy,對等遠程拷貝),一種被稱為XRC(Extended Remote Copy,擴展遠程拷貝),并在1995年投入應(yīng)用。1996年,所有IBM 3990存儲控制家族產(chǎn)品的先前型號都被具有遠程拷貝功能的型號6替代。
對等遠程拷貝(PPRC)功能現(xiàn)在被所有主要的S/390存儲供貨商視為S/390 Sysplex災(zāi)難恢復(fù)領(lǐng)域的前途所在。PPRC和增強OS/390以及地理分散并行Sysplex (GDPS)一道,成為業(yè)界高可用性解決方案的領(lǐng)導(dǎo)者。最近的Gartner分析表明,并行Sysplex解決方案每年平均停機時間少于10分鐘。
GDPS是一種多站點應(yīng)用可用性解決方案,具有管理遠程拷貝配置和存儲子系統(tǒng)、自動執(zhí)行并行Sysplex操作任務(wù)、從單一控制點執(zhí)行故障恢復(fù)等功能,從而達到了提高應(yīng)用可用性的目的。通過GDPS和PPRC,IBM使災(zāi)難發(fā)生后進行恢復(fù)的時間縮減到以分鐘計算。
除非特殊說明,下文敘述的所有解決方案都假設(shè)主站點和恢復(fù)站點之間通過企業(yè)系統(tǒng)連接(ESCON)一類的寬帶連接互連。
備份和恢復(fù)
在所有的IT資源中,數(shù)據(jù)最重要,但也最不穩(wěn)定最復(fù)雜。其它資源,如處理能力、供貨商提供的軟件、DASD、存儲設(shè)備、建筑物等,都是最終可替換的,但大部分數(shù)據(jù)卻是不可替換的。而數(shù)據(jù)對商業(yè)活動來說是最重要的。在這里我們將討論適用于災(zāi)難恢復(fù)的不同IBM產(chǎn)品,它們能夠進行不同類型的數(shù)據(jù)管理,設(shè)置不同的數(shù)據(jù)備份選項。本部分主要敘述用于災(zāi)難恢復(fù)的功能,但并沒有覆蓋這些產(chǎn)品所有的可用功能。
遠程拷貝
當某一應(yīng)用站點停機時,IBM的遠程拷貝功能能夠進行快速有效的災(zāi)難恢復(fù)。該功能能夠在遠程站點實時維護數(shù)據(jù)的鏡像拷貝,并確保以與主站點完全相同的次序在遠程站點進行數(shù)據(jù)寫入更新的遠程復(fù)制。這一解決方案在遠程拷貝控制機制下自動對DASD卷上的數(shù)據(jù)進行跟蹤。這種跟蹤的發(fā)生獨立于使用這些數(shù)據(jù)的應(yīng)用。因此,來自不同應(yīng)用的獨立遠程拷貝功能是不需要的。
應(yīng)用的性能保護、數(shù)據(jù)當前值選項和數(shù)據(jù)獨立都是IBM遠程拷貝設(shè)計中的組成部分。遠程拷貝方法有以下不同的兩種:
對等遠程拷貝(PPRC);
擴展遠程拷貝(XRC)。
PPRC和XRC都試圖通過維護DSAD卷間的實時拷貝來達到數(shù)據(jù)保護的目的。遠程拷貝超出了狹隘意義上的雙重拷貝,因為它允許副卷存儲在遠地點上。雙重拷貝的主要用途是保護數(shù)據(jù)不受設(shè)備失效的損害,而遠程拷貝的目的要更加廣泛。
對等遠程拷貝(PPRC)
PPRC提供的災(zāi)難恢復(fù)能夠最大限度地保留數(shù)據(jù)當前值。如果您屬于以下的情況,PPRC將能夠很好地適合您的需要:
避免數(shù)據(jù)丟失是您最優(yōu)先的考慮;
您的運行站點和恢復(fù)站點之間的距離不超過103公里;
您的工作負載和要求能夠承受同步拷貝帶來的性能損失。
PPRC提供有助于保留數(shù)據(jù)當前值和完整性的兩類選擇。一個選擇是將卷標記為"關(guān)鍵",保證在副卷不能更新時,原有的更新也將無效,不論卷是處于同步狀態(tài)還是異步狀態(tài),甚至是在災(zāi)難出現(xiàn)時也如此。這一功能通過APAR提供,在寫入時被設(shè)置為可用。
第二個選擇是使用最近被改進的系統(tǒng)錯誤恢復(fù)程序(Error Recovery Procedure,ERP)。當發(fā)生問題時,ERP在向主機返回完成狀態(tài)之前記錄錯誤信息,在遠程站點上將配置這些記錄的一個拷貝,從而即使在災(zāi)難過程中也能夠連續(xù)提供哪些卷處于同步狀態(tài)和哪些卷沒有處于同步狀態(tài)這樣的信息,這一功能通過APAR提供。
PPRC對于VSE用戶來說也是一種理想的災(zāi)難恢復(fù)解決方案選擇。通過使用ICKDSF命令接口可以很容易地建立PPRC路徑和PPRC對。VSE環(huán)境下的PPRC功能與OS/390環(huán)境下類似,只是VSE用戶使用ICKDSF命令接口而OS/390用戶使用TSO/E命令接口。
OS/390環(huán)境下運行的PPRC還能夠與一種被稱為對等動態(tài)地址交換(Peer-to-peer Dynamic Address Switching ,P/DAS)的新功能共同工作。
在以前的P/DAS實現(xiàn)方法中,SWAP命令的第一地址是在一個PPRC主卷上,第二地址在相應(yīng)的副卷上。在ESS系統(tǒng)中將不再要求這兩個卷構(gòu)成一個活動PPRC對,您可以交換ESS系統(tǒng)中的任意卷對,前提是必須能夠確保所交換的卷是一致的。
通過IBM ESS系統(tǒng),PPRC可以建立在LUN基礎(chǔ)之上。與其它PPRC實現(xiàn)方法一樣,PPRC只能建立在相同類型的存儲控制單元之間。與其它型號IBM DASD控制器上實現(xiàn)的PPRC相比,通過ESCON連接的兩個ESS控制單元之間的通信性能可以有更大的提高。ESCON協(xié)議是經(jīng)過改進的,信號交換較少,兩個ESS之間可以傳輸更大的ESCON幀。這些提高使兩個ESS之間的距離在使用多模到單模的ESCON轉(zhuǎn)換器和放大器的情況下可以擴展到103公里。
擴展遠程拷貝(XRC)
擴展遠程拷貝(XRC)是一種異步拷貝功能,在正常運行期間對大多數(shù)應(yīng)用性能的影響最小。XRC在遠程恢復(fù)站點為您的運行數(shù)據(jù)創(chuàng)建一個副本拷貝。
如果您屬于以下的情況,XRC對您將是比較適合的:
應(yīng)用在正常操作過程中的性能是您最優(yōu)先考慮的對象;
可以接受副站點數(shù)據(jù)當前值更新的較小延遲。
如果您的運行站點和恢復(fù)站點之間的距離超過103公里或出現(xiàn)"線路"問題,您可以使用CNT CopyXpress或其它信道擴展器使您的XRC解決方案通過電信線路得到擴展。由于XRC需要OS/390的系統(tǒng)數(shù)據(jù)移動器(System Data Mover, SDM),因此,它只能在OS/390環(huán)境下工作。
為確保數(shù)據(jù)完整性,Data Mover的設(shè)計使其能夠以主站點上相同的順序在遠程站點上進行數(shù)據(jù)的更新。對于遠程拷貝數(shù)據(jù)會在某些存儲控制器上展開的情況,這一功能將是特別重要的。
以上兩種解決方案在遠程拷貝機制下都能夠?qū)ASD卷上的數(shù)據(jù)進行自動跟蹤。跟蹤的進行與使用數(shù)據(jù)的應(yīng)用相互獨立。因此,來自不同應(yīng)用的分散的遠程拷貝功能是不需要的。一旦對某一卷建立了遠程拷貝,遠程拷貝的運行將是透明的。當數(shù)據(jù)寫入主DSAD時,無須應(yīng)用用戶的任何干預(yù),這些數(shù)據(jù)就會被拷貝到遠程DSAD中。
PPRC和XRC不同之處在于以下幾個方面:對DSAD I/O性能的影響、災(zāi)難發(fā)生時數(shù)據(jù)當前值的最新程度、系統(tǒng)資源的占用、操作距離和運行控制。
ESS支持某些硬件輔助的拷貝功能的目的有兩個:為能夠提供數(shù)據(jù)實時拷貝的災(zāi)難恢復(fù)解決方案和拷貝功能提供鏡像操作功能。StorWatch ESS專家拷貝服務(wù)Web瀏覽器接口提供了一種任何環(huán)境下建立和管理PPRC的方法。它為使用控制面板建立圖形視圖任務(wù)的用戶進行操作管理提供了一種有組織的方法。
并發(fā)拷貝功能(Concurrent Copy)
并發(fā)拷貝是改進后的DFSMS/MVS和IBM S1390 型號3以及型號6所提供的一種功能。RAMAC虛擬數(shù)組(RAMAC Virtual Array ,RVA)和企業(yè)存儲服務(wù)器(Enterprise Storage Server ,ESS)成為IBM S1390系列當然的后續(xù)產(chǎn)品。
并發(fā)拷貝允許對數(shù)據(jù)進行"時間點"性質(zhì)的拷貝,而這些數(shù)據(jù)可同時被更新。只有提出拷貝請求時數(shù)據(jù)庫的更新才必須被停止(停止的時間長度以秒計)。一旦請求被接受,更新可以被恢復(fù),并發(fā)拷貝將創(chuàng)建一個拷貝請求發(fā)出時的數(shù)據(jù)拷貝。這一功能大大減少了數(shù)據(jù)庫進行備份拷貝所引致的不可使用時間。在很多情況下,節(jié)約的時間要以小時計,而且并發(fā)拷貝大大增加了OS/390環(huán)境下在線操作和批處理的時序安排靈活性。
在并發(fā)拷貝出現(xiàn)之前,物理和邏輯信息轉(zhuǎn)儲之間常常需要進行交替換位。在轉(zhuǎn)儲過程中,數(shù)據(jù)對其他應(yīng)用來說是不可用的。物理轉(zhuǎn)儲進行的速度較快,但必須被恢復(fù)到一個相似的設(shè)備上。因為每天晚上都要進行轉(zhuǎn)儲,而恢復(fù)并不經(jīng)常進行,所以總的來說物理轉(zhuǎn)儲可以減少停機時間。
并發(fā)拷貝出現(xiàn)后,規(guī)則就被改變了。對于并發(fā)拷貝轉(zhuǎn)儲來說,只有并發(fā)拷貝轉(zhuǎn)儲請求被接受時,數(shù)據(jù)才是不可用的。在實際轉(zhuǎn)儲過程中,數(shù)據(jù)都是可用的。在使用并發(fā)拷貝的情況下,邏輯轉(zhuǎn)儲具有與物理轉(zhuǎn)儲一樣的數(shù)據(jù)可用性;不使用并發(fā)拷貝時,邏輯轉(zhuǎn)儲在數(shù)據(jù)可用性方面比物理轉(zhuǎn)儲要好。
DFSMSdss也提供了并發(fā)拷貝功能。這一功能由DFSMSdss控制語句中嵌入的CONCURRENT參數(shù)調(diào)用。DFSMSdss可以作為一個正常的任務(wù)步驟被調(diào)用,也可以被使用DFSMSdss API的程序調(diào)用。大多數(shù)并發(fā)拷貝工作并不由DFSMSdss執(zhí)行,而是由作為DFSMS/MVS組件的系統(tǒng)數(shù)據(jù)移動器 (SDM)執(zhí)行。當收到一個通過DFSMSdss產(chǎn)生的拷貝請求時,SDM對環(huán)境進行初始化,為拷貝作好準備,并通知IBM DASD控制器將被拷貝的數(shù)據(jù)的范圍。
環(huán)境初始化完成后,拷貝開始,數(shù)據(jù)更新重新恢復(fù)。如果正在被拷貝的數(shù)據(jù)需要被更新,或被更新的數(shù)據(jù)還沒有被拷貝,這些數(shù)據(jù)就被拷貝到IBM DASD控制器高速緩存中的sidefile中,更新工作將繼續(xù)進行直至完成。為使對高速緩存的占用最小,數(shù)據(jù)將由高速緩存的sidefile轉(zhuǎn)移到MVS的數(shù)據(jù)空間sidefile中。在拷貝數(shù)據(jù)時,DFSMSdss在(存入)磁盤前不斷檢索sidefile,因此,備份中并不包含拷貝請求被接受以后所發(fā)生的任何數(shù)據(jù)更新。
ESS中并發(fā)拷貝的工作方式與其在IBM S1390-6中的工作方式一樣。并發(fā)拷貝由DFDSS中包含的CONCURRENT關(guān)鍵詞發(fā)起,或由將DFSMSdss作為拷貝程序并對其進行內(nèi)部調(diào)用的應(yīng)用發(fā)起。
快速拷貝(Flash Copy)
ESS提供的快速拷貝功能使計算中心能夠在幾秒鐘內(nèi)為一個邏輯卷或數(shù)據(jù)集創(chuàng)建一個拷貝。由于創(chuàng)建數(shù)據(jù)的快速拷貝僅需要幾秒鐘的時間,所以您的應(yīng)用只須中斷很短的時間。在此之后,您的應(yīng)用將繼續(xù)運行??焖倏截愃鶕碛械莫毺毓δ苁褂嬎阒行哪軌螂S意安排運行數(shù)據(jù)集的備份,從而在災(zāi)難發(fā)生時能夠提供數(shù)據(jù)的快速恢復(fù)。
快速拷貝只能用于磁盤卷之間,它要求目標卷與源卷處于同一個邏輯子系統(tǒng)中。當拷貝操作建立時,目標卷與源卷之間將建立一種關(guān)聯(lián)。這一關(guān)聯(lián)建立后,卷拷貝將能夠被訪問,一個后臺作業(yè)將復(fù)制所有由源卷拷貝到目標卷的磁道。如果ESS StorWatch 專家拷貝服務(wù)建立了一個快速拷貝過程,您可以使用NOCOPY選項來禁止這一后臺拷貝任務(wù)。如果您僅在短時期內(nèi)需要拷貝功能,那么以上功能就用得上了。
快速拷貝可以通過OS/390拷貝程序DFSMSdss來啟動,對于ESS中設(shè)置了卷或LUN的系統(tǒng),則可以通過StorWatch ESS 專家拷貝服務(wù)的Web接口來啟動。快速拷貝功能還可以與其它硬件輔助的功能如PPRC相結(jié)合,使您可以在幾秒鐘內(nèi)創(chuàng)建PPRC副卷的一個快速拷貝。
業(yè)務(wù)數(shù)據(jù)恢復(fù)
由于業(yè)務(wù)相關(guān)數(shù)據(jù)主要部分的管理是由一個或多個數(shù)據(jù)庫管理系統(tǒng)(DBMS)來完成,本部分將說明主站的恢復(fù)過程,并且將著重說明災(zāi)難恢復(fù)時的不同。
傳統(tǒng)意義上,數(shù)據(jù)庫恢復(fù)的基礎(chǔ)是利用一個安全的時間點備份(映像拷貝)來進行數(shù)據(jù)庫恢復(fù),并利用DBMS歷史記錄中的一個安全拷貝可以隨意執(zhí)行一個向前恢復(fù)。對DBMS數(shù)據(jù)庫來說,很有可能執(zhí)行的是"實時向前滾動"和"實時遠程更新"解決方案。
在災(zāi)難發(fā)生時計算中心如果使用歷史記錄數(shù)據(jù)進行向前恢復(fù),那么歷史記錄數(shù)據(jù)與必要的恢復(fù)控制信息一起必須被安全地離站存儲。如果DBMS運用雙歷史記錄,那么副歷史記錄數(shù)據(jù)可以分配到遠程附屬的DASD上。這可能是一個花費稍高的解決方案,但它能夠消除歷史記錄數(shù)據(jù)丟失帶來的風(fēng)險。否則,您需要通過磁盤鏡像來使用遠程實時歷史記錄,例如IBM的遠程拷貝功能。
企業(yè)系統(tǒng)連接(ESCON)
ESCON極大地提高了處理器和I/O設(shè)備之間以及多處理器之間的內(nèi)部連接能力。利用ESCON,數(shù)據(jù)可以以18.6MB/秒的速率傳輸。傳輸?shù)淖畲缶嚯x取決于光纖電纜的類型、內(nèi)部連接的組成部分以及所使用的控制單元。這些距離規(guī)范大多數(shù)都不是硬性限制。超出這些限制僅僅會導(dǎo)致性能上的降低。然而,若超出一定的值,系統(tǒng)將會停止工作。
ESCON XDF的使用可以使得信道連接的距離足夠滿足許多災(zāi)難恢復(fù)解決方案的要求。現(xiàn)在間隔60km以外的主站和二級站點之間可以利用大帶寬CTC連接,直接進行處理器與處理器之間的備份數(shù)據(jù)傳輸。DASD和盒式磁盤設(shè)備都可安置在距離主站點43km的地方,并允許離站對關(guān)鍵數(shù)據(jù)直接進行簡單有效的拷貝。這意味著關(guān)鍵數(shù)據(jù)將會快速安全地完成備份過程。這就去除了傳統(tǒng)的手工傳送備份數(shù)據(jù)到一個安全站點的操作。