基于磁盤備份的興起

    在兩級存儲模型里,備份恢復(fù)通常使用的是自動帶庫和磁帶;但是在多級存儲模型里,備份恢復(fù)的實現(xiàn)方式就變得豐富多了,并且解決了許多基于磁帶的備份恢復(fù)方案中問題。

    基于ATA盤的近線存儲和自動帶庫相比較有以下的不同:

    1、 讀寫訪問方式的不同—-基于磁帶的備份恢復(fù)采用的是磁帶作為介質(zhì),其數(shù)據(jù)的讀寫方式是采用順序讀寫的方式。而采用ATA磁盤的備份恢復(fù)是采用磁盤作為介質(zhì),讀寫方式是隨機讀寫方式。

    2、 數(shù)據(jù)訪問的有效性—-ATA近線存儲采用隨機讀寫方式,而自動帶庫采用的是順序讀寫的方式,自動帶庫每次讀寫都需要執(zhí)行基本的幾個步驟:倒帶倒頭,進(jìn)帶定位,讀取數(shù)據(jù)。因此,自動帶庫需要花費更長的時間才能讀取數(shù)據(jù)。同時,自動帶庫沒有辦法修改數(shù)據(jù),對數(shù)據(jù)的任何修改都帶來后續(xù)數(shù)據(jù)的連續(xù)改動甚至不可訪問。

    3、 數(shù)據(jù)訪問的并發(fā)性—-自動帶庫的數(shù)據(jù)訪問受限于帶機的個數(shù),而且同批數(shù)據(jù)的訪問也無法并發(fā)于多臺帶機,但ATA近線存儲可以把數(shù)據(jù)條帶分布在多個磁盤上并行訪問,從而提高訪問的速度。即使有軟件能夠?qū)崿F(xiàn)將數(shù)據(jù)條帶在多臺帶機上進(jìn)行,由于磁帶機的故障率遠(yuǎn)高于磁盤,事實上這種帶機條帶化在實際上是不可行的。

    4、 數(shù)據(jù)訪問的隨時性—-如果磁帶離開了自動帶庫,數(shù)據(jù)就無法被隨時訪問,必須由人工加載后才能訪問。

    5、 管理的復(fù)雜性¬¬—-磁帶的保管需要科學(xué)的方法及人工的干預(yù)。對磁帶的分類需要一個好的方法,比如采用條碼加字母數(shù)字的編號等;磁帶需要定期的被訪問一下,以防數(shù)據(jù)因介質(zhì)的老化而丟失等。

    6、 數(shù)據(jù)的可靠性—-采用磁盤的方式,數(shù)據(jù)可以采用多種檢錯、糾錯的措施來保證數(shù)據(jù)存儲的可靠性,比如像NetApp的磁盤采用了先進(jìn)的BCS介質(zhì)級校驗措施,同時還配備了獨特的RAID DP磁盤級保護(hù)措施來防范同一RAID組任意兩塊盤任意時間發(fā)生故障。而采用自動帶庫,卻缺少豐富的檢錯和糾錯手段。目前,有的技術(shù)可以實現(xiàn)多臺磁帶機之間實現(xiàn)RAID,但在實際上應(yīng)用上是不可行的。

    基于以上的分析,我們可以看到基于磁帶的備份恢復(fù)存在以下的問題。

    1、 備份效率低—-通常磁帶備份的備份粒度是設(shè)備級或文件級的,并且磁帶只能采用順序讀寫的方式,因此,雖然自動帶庫可以采用多臺帶機同時進(jìn)行備份,表面上看鏈路通道很寬,但是實際上的單臺服務(wù)器的備份速度還受限于服務(wù)器的輸出能力,因此總體來看其性能并不高,效率也非常低下,而且會浪費許多的空間。并且一臺服務(wù)器的數(shù)據(jù)分散在多臺帶機上進(jìn)行部分,也帶來了管理上的復(fù)雜度。

    2、 恢復(fù)速度慢、不可靠—-由于無法在備份的時候把數(shù)據(jù)并行地備份到多臺磁帶機里,即不能把數(shù)據(jù)并行備份到多盤磁帶里,因此多臺帶機并不一定能夠提高恢復(fù)的速度,單個文件或文件系統(tǒng)的恢復(fù)往往還是只能通過同一臺磁帶機來恢復(fù),因此速度仍然很忙。同時,由于磁帶的不穩(wěn)定性,并且沒有類似RAID一樣的有效手段進(jìn)行保護(hù),許多時候恢復(fù)往往無法保證能夠正確的完成,這正是人們?yōu)槭裁幢A舳鄠€拷貝的原因。

    所以,近年來在ATA磁盤的價格大幅下降后,人們首先想到了利用ATA產(chǎn)品來完善備份恢復(fù)的解決方案。并在短短的幾年里,ATA磁盤技術(shù)由最初的PATA發(fā)展到了SATA,并且SATA技術(shù)還在繼續(xù)發(fā)展。而利用ATA磁盤的二級近線存儲的應(yīng)用范圍也由單一的備份恢復(fù)解決方案增加了經(jīng)濟(jì)容災(zāi)、分類歸檔和法規(guī)遵從等多種解決方案。并且光是基于磁盤的備份恢復(fù)解決方案就發(fā)展了五種:虛擬磁帶庫、傳統(tǒng)型磁盤備份恢復(fù)、先進(jìn)性磁盤備份恢復(fù)、移動式磁盤備份恢復(fù)、桌面磁盤備份恢復(fù)等。

    這五種基于磁盤的備份恢復(fù)解決方案將于以下作進(jìn)一步的介紹分析。

    虛擬磁帶庫(VTL)

    虛擬磁帶庫(Virtual Tape Library)是把ATA的存儲虛擬化成一臺自動帶庫。其拓?fù)浣Y(jié)構(gòu)參見下圖。


    從上面的拓?fù)浣Y(jié)構(gòu)可以看出,ATA的存儲(如NetApp的近線存儲NearStore)前面連接一臺VTL服務(wù)器,通過VTL服務(wù)器,ATA存儲被虛擬化化成一臺虛擬磁帶庫,存儲空間會虛擬化成許多盤磁帶。備份服務(wù)器會完全和原來訪問傳統(tǒng)的機械自動帶庫一樣訪問虛擬磁帶庫,進(jìn)行備份和恢復(fù)。數(shù)據(jù)會先備份到虛擬磁帶庫內(nèi)的虛擬磁帶上,然后再轉(zhuǎn)移到磁帶上;恢復(fù)將可以改為從虛擬磁帶庫進(jìn)行。備份的影像是一盤虛擬磁帶。

    通常VTL服務(wù)器是由一些軟件廠商提供的軟件運行在服務(wù)器上形成的,這樣ATA的存儲還可以進(jìn)行其他的應(yīng)用。但有些廠家會OEM這些軟件并和ATA存儲組合到一起,形成單一功能的虛擬磁帶庫。

    采用虛擬磁帶庫進(jìn)行備份恢復(fù),具有以下特點:

    1、 完全透明地集成進(jìn)原有的系統(tǒng)。原有的備份恢復(fù)方式不需作改動,僅僅是備份恢復(fù)的目的設(shè)備改為虛擬磁帶庫。

    2、 虛擬磁帶庫沒有機械手的運動,不存在物理的卷帶、進(jìn)帶、索引等動作,因此大大節(jié)省許多時間。

    3、 在大規(guī)模并行備份環(huán)境下,傳統(tǒng)的機械自動帶庫可以通過多臺磁帶機來提高吞吐性能,這可能會比虛擬磁帶庫的吞吐性能要高。其他的備份情況,虛擬磁帶庫會優(yōu)于傳統(tǒng)的機械自動帶庫。具體的吞吐性能需要根據(jù)具體的環(huán)境才能做出比較。

    4、 但是在大多數(shù)恢復(fù)時,虛擬磁帶庫將會比傳統(tǒng)的機械自動帶庫性能要好。

    5、 尤其是少量數(shù)據(jù)恢復(fù)時,磁盤隨機讀寫的特點會使恢復(fù)速度大大提高。

    6、 由于備份的策略不作任何改動,因此,可能需要比較多的ATA存儲容量。

    7、 需要購買VTL服務(wù)器。

    2.1 傳統(tǒng)型磁盤備份恢復(fù)

    傳統(tǒng)型磁盤備份恢復(fù)也是基本不改任何現(xiàn)有環(huán)境的一種基于磁盤的備份恢復(fù)的解決方案。業(yè)內(nèi)也對這種方式稱為“Disk Staging”。拓?fù)浣Y(jié)構(gòu)參見下圖。



    在傳統(tǒng)型磁盤備份恢復(fù)的模型里,近線存儲前無需增加VTL服務(wù)器,近線存儲本身就可以充當(dāng)備份的目的設(shè)備。這主要是要求備份軟件可以支持把數(shù)據(jù)目的設(shè)備配置成一個文件或目錄,以普通文件的方式來記錄備份的影像;而不是一個流式文件,必須把數(shù)據(jù)目的設(shè)備配置成流式磁帶機。現(xiàn)在絕大部分的備份軟件都支持這樣的配置。

    采用傳統(tǒng)型磁盤備份恢復(fù)的模型,具有以下特點:

    1、 基本透明地集成進(jìn)現(xiàn)有的環(huán)境,而無需作太大地改動。備份的影像不是一盤磁帶,而是一個預(yù)先定義長度的文件。

    2、 需要確認(rèn)備份軟件支持目的設(shè)備配置成普通文件或目錄的方式。

    3、 屬于文件增量型的備份方式。

    4、 由于采用RAID對ATA磁盤設(shè)備進(jìn)行保護(hù),因此,如果不是規(guī)定限制,可以適當(dāng)減少備份的影像數(shù)量,從而和傳統(tǒng)機械自動帶庫相比需要較少的空間。

    2.2 先進(jìn)型磁盤備份恢復(fù)

    采用虛擬磁帶庫和傳統(tǒng)型磁盤備份恢復(fù)最大的優(yōu)點就是對現(xiàn)有的備份恢復(fù)策略及實施影響不大。但是其缺點也是比較明顯的:

    1、 空間消耗大:虛擬磁帶庫需要把空間虛擬成磁帶,因此,基于原有的備份策略需要多少磁帶,那么磁盤也需要多少空間。并且,和磁帶相似產(chǎn)生的空間剩余也沒有辦法利用。傳統(tǒng)型磁盤備份恢復(fù)和虛擬磁帶庫相類似,但是由于沒有把空間虛擬化成磁帶,因此不會產(chǎn)生空間剩余的問題。但空間消耗仍然非常大。產(chǎn)生空間消耗大的根本原因主要是由于兩者執(zhí)行的都是文件級增量的備份模式。文件級增量的備份模式無論數(shù)據(jù)改動大小,哪怕僅僅是一個字節(jié),也需要將整個文件全部備份下來。這樣對于增量備份和差量備份都會帶來比較大的空間消耗。即使是全量備份,一樣的兩個版本的文件,同樣需要兩份空間,無法利用一份拷貝保存多個版本。因此虛擬磁帶庫和傳統(tǒng)型磁盤備份恢復(fù)對空間的消耗是非??捎^的。

    2、 無法直接恢復(fù):無論虛擬磁帶庫還是傳統(tǒng)型磁盤備份恢復(fù),其備份的數(shù)據(jù)都是備份軟件特定的格式,無法直接訪問,并且需要相應(yīng)的索引庫來進(jìn)行輔助索引的。因此,在恢復(fù)的時候,首先需要通過索引庫的檢索,然后需要把相關(guān)的文件先恢復(fù),最后才能被訪問。

    3、 實際上無法實現(xiàn)遠(yuǎn)程集中備份:雖然備份軟件支持遠(yuǎn)程備份的功能,但是,由于遠(yuǎn)程站點和數(shù)據(jù)中心之間的鏈路帶寬遠(yuǎn)遠(yuǎn)支撐不了文件級增量備份的模型,因此,實際上遠(yuǎn)程站點要想實現(xiàn)集中備份到數(shù)據(jù)中心,必須尋找新的備份模型。

    NetApp通過分析世界上財富1000強的公司的IT需求,提出了新的備份模型:先進(jìn)型磁盤備份恢復(fù)。



    先進(jìn)型磁盤備份恢復(fù)充分接合NetApp公司獨特的“零拷貝”模式的快照技術(shù),實現(xiàn)了數(shù)據(jù)塊增量型的備份,用一份拷貝提供多個版本,一方面大大減少了空間的消耗,并且備份數(shù)據(jù)可以直接訪問,極大地改善了數(shù)據(jù)的恢復(fù)靈活性和簡單性;另一方面大大節(jié)省了鏈路的帶寬需求,解決了遠(yuǎn)程站點集中備份的問題。

    NetApp的先進(jìn)型磁盤備份恢復(fù)解決方案中一級存儲可以分為NetApp產(chǎn)品和非NetApp產(chǎn)品兩種,二級存儲采用NetApp的產(chǎn)品。在這里需要指出的是,NetApp產(chǎn)品包括采用FC磁盤的FAS存儲和采用SATA磁盤的NearStore存儲。兩者的管理和應(yīng)用是一致的。

    一級存儲采用NetApp產(chǎn)品的模型中,一級存儲和二級存儲之間采用SnapVault軟件來進(jìn)行數(shù)據(jù)塊增量的復(fù)制,傳遞的僅僅只是一級存儲中兩個時間點之間的快照相差的數(shù)據(jù)塊。由于一級存儲采用的是NetApp“零拷貝”的快照模式,因此,對前端應(yīng)用服務(wù)器的性能沒有任何影響。

    一級存儲采用非NetApp產(chǎn)品的模型中,一級存儲和二級存儲之間采用OSSV軟件來進(jìn)行數(shù)據(jù)塊增量的復(fù)制。OSSV軟件需要安裝在前端的Windows或Unix的服務(wù)器上。在進(jìn)行備份時,OSSV需要將現(xiàn)在文件系統(tǒng)和上一次備份的文件系統(tǒng)進(jìn)行比較,識別出相應(yīng)的數(shù)據(jù)塊增量,然后傳輸?shù)蕉壌鎯ΑR虼?,對?yīng)用服務(wù)器存在一定的性能影響,但是由于不需要傳輸大量的數(shù)據(jù),因此和虛擬磁帶庫及傳統(tǒng)型磁盤備份恢復(fù)模型相比,性能的下降還是可以接受的。

    以上兩種模型除了第一次和二級存儲進(jìn)行初始化備份時需要復(fù)制全部的數(shù)據(jù)以外,以后的備份僅僅需要傳輸有效改動的數(shù)據(jù)塊。并且在二級存儲上形成可以直接訪問的拷貝。用戶可以借助這些拷貝進(jìn)行數(shù)據(jù)恢復(fù)、經(jīng)濟(jì)容災(zāi)等。

    NetApp的存儲最多可以保存255個備份拷貝,用戶可以自行配置小時級、天級、周級的拷貝個數(shù)。比如保留兩天連續(xù)48個小時級的拷貝、一個月內(nèi)31天的天級拷貝、一年52周的周級拷貝,總共也就131個拷貝。

    采用先進(jìn)型磁盤備份恢復(fù)的解決方案,具有以下特點:

    1、 空間消耗大大減少:在二級存儲上多個時間點的備份拷貝共享同一份基準(zhǔn)數(shù)據(jù),相差的僅僅是改動的數(shù)據(jù)塊,因此這種數(shù)據(jù)塊級增量的備份方式比文件級增量的備份方式消耗的空間要小的多。


    2、 備份拷貝可以直接訪問:和需要備份軟件先恢復(fù)再訪問的模式不同,先進(jìn)型磁盤備份恢復(fù)的備份拷貝可以通過相應(yīng)的時間點進(jìn)入直接訪問相應(yīng)的拷貝。因此,對于用戶誤刪除、病毒感染、黑客攻擊等邏輯災(zāi)難,用戶可以無需系統(tǒng)管理員的協(xié)助就能夠進(jìn)行恢復(fù);當(dāng)一級存儲發(fā)生災(zāi)難時,還可以切換到二級存儲,實現(xiàn)經(jīng)濟(jì)容災(zāi);這些拷貝還可以作一些增值的分析應(yīng)用。

    3、 可以實現(xiàn)遠(yuǎn)程集中備份:由于傳遞的是有效改動的數(shù)據(jù)塊增量,因此對鏈路的需求不大,利用先進(jìn)型磁盤備份恢復(fù)可以把多個遠(yuǎn)程站點的數(shù)據(jù)集中備份到數(shù)據(jù)中心,在進(jìn)行磁帶備份,這樣可以降低遠(yuǎn)程站點的維護(hù)人員的素質(zhì)要求,優(yōu)化企業(yè)的系統(tǒng)架構(gòu),降低整體擁有成本。遠(yuǎn)程集中備份需要注意的技術(shù)難點除了備份外,更重要的是恢復(fù),對此NetApp有完整的解決方案。

    4、 可以實現(xiàn)經(jīng)濟(jì)容災(zāi):由于保存在NearStore上的備份拷貝是可以直接訪問的,因此,當(dāng)發(fā)生環(huán)境災(zāi)難時,客戶端可以失效切換到二級近線存儲,繼續(xù)工作,同時在后臺進(jìn)行數(shù)據(jù)的恢復(fù)。這其實已經(jīng)把備份的概念拓展到了容災(zāi)的領(lǐng)域,是新型“經(jīng)濟(jì)容災(zāi)”的一種實現(xiàn)模型。未來NetApp還會推出一種“按需優(yōu)先恢復(fù)”來進(jìn)一步完善數(shù)據(jù)恢復(fù)的解決方案。

    2.3 移動式磁盤備份恢復(fù)

    采用磁帶備份有一個特點是磁帶可以離線異地保存,以防范環(huán)境災(zāi)難。通常采用基于磁盤的備份方案都很難做到把磁盤象磁帶一樣離線異地保存。這里需要磁盤系統(tǒng)對重新上線的磁盤能夠識別,并且把保留在里邊的數(shù)據(jù)讀取出來,否則離線后數(shù)據(jù)就無法還原了。

    NetApp的存儲系統(tǒng)對磁盤的物理位置是不關(guān)心的。這種磁盤物理位置的無關(guān)性使得磁盤可以被離線后取下,并異地保存,一旦發(fā)生災(zāi)難,可以把這些磁盤安裝上另外的NetApp存儲系統(tǒng)上,并上線后迅速地訪問產(chǎn)品上備份的數(shù)據(jù)。這樣磁盤備份也擁有了相應(yīng)磁帶的特征,成為了移動式的磁盤備份恢復(fù)。值得指出的一點是,離線的磁盤無需做詳細(xì)的標(biāo)記,重新上線后也無需講究磁盤需要的具體順序或槽位。這樣大大簡化了管理的復(fù)雜度。

    2.4 桌面磁盤備份恢復(fù)

    企業(yè)當(dāng)中備份相關(guān)的課題,包括三個方面:數(shù)據(jù)中心服務(wù)器的備份、遠(yuǎn)程站點的集中備份、以及桌面系統(tǒng)的備份。

    桌面系統(tǒng)包括臺式機和筆記本等個人電腦設(shè)備,通常對這些系統(tǒng)的備份是很困難的,因為桌面系統(tǒng)隨時可能離線,而且筆記本還有可能到處移動。

    但是我們也必須面臨對桌面系統(tǒng)備份的問題,否則,公司重要的商務(wù)數(shù)據(jù)可能因為核心骨干的離職而丟失,或者員工們的系統(tǒng)遭病毒攻擊后所有的數(shù)據(jù)全部損失,還有可能我們需要實現(xiàn)法規(guī)遵從等。

    解決的辦法有多個:

    1、 要求員工自己備份:這會增加員工的負(fù)擔(dān),并且分散的備份風(fēng)險很大、也沒法管理。

    2、 采用集中存儲、實現(xiàn)個人目錄:這種模式在外企是非常成熟的方案。所有的員工在集中的文件服務(wù)器上擁有個人獨立的空間,用戶可以在任何一臺終端登陸,訪問自己的數(shù)據(jù),享有熟悉的界面。所有數(shù)據(jù)都保存在數(shù)據(jù)中心的存儲上,桌面系統(tǒng)的備份需求大大降低,只需要解決好數(shù)據(jù)中心服務(wù)器的備份就行了。但是部分員工保存在桌面系統(tǒng)的數(shù)據(jù)還是沒法部分,比如部分常出差的員工的數(shù)據(jù)可能保存在自己的筆記本電腦里。

    3、 采用桌面磁盤備份恢復(fù)方案:這通常需要在相應(yīng)的桌面系統(tǒng)上安裝上一個客戶端軟件,實現(xiàn)一級桌面系統(tǒng)的數(shù)據(jù)向二級近線存儲進(jìn)行備份。這種解決方案有很多。


    訂閱《信息存儲》雜志請 點擊此處鏈接

分享到

多易

相關(guān)推薦