然而,當(dāng)備份到VTL或其他基于磁盤的備份目標(biāo)已經(jīng)大大改善了我們滿足甚至超出備份和恢復(fù)目標(biāo)能力的同時(shí),我們還面臨著ESG稱之為“容量膨脹”的問題。將此現(xiàn)象歸咎于不斷增加的數(shù)據(jù)量、要求將更多數(shù)據(jù)在線保留更長(zhǎng)時(shí)間的法規(guī)或企業(yè)管理規(guī)定、更具挑戰(zhàn)性的SLA或縮小的備份窗口,都是不重要的。事實(shí)是,我們所備份的數(shù)據(jù)越來(lái)越多,卻沒有找到很有效的方式??直至重復(fù)數(shù)據(jù)刪除技術(shù)的出現(xiàn)。
走進(jìn)重復(fù)數(shù)據(jù)刪除
ESG認(rèn)為,重復(fù)數(shù)據(jù)刪除技術(shù)是這十年來(lái)出現(xiàn)的最重要的數(shù)據(jù)保護(hù)技術(shù)之一。原因是因?yàn)橹貜?fù)數(shù)據(jù)刪除技術(shù)為數(shù)據(jù)保護(hù)領(lǐng)域帶來(lái)革命性突破,使磁盤備份、遠(yuǎn)程備份和復(fù)制效率更高。實(shí)際上,ESG預(yù)測(cè),由于重復(fù)數(shù)據(jù)刪除技術(shù)能夠提升方案價(jià)值,將帶動(dòng)對(duì)包含VTL在內(nèi)的基于磁盤備份方案的市場(chǎng)關(guān)注度及部署。
ESG 調(diào)查發(fā)現(xiàn),成本問題一直是阻礙部署基于磁盤備份方案的首要因素。而重復(fù)數(shù)據(jù)刪除技術(shù)降低了后端磁盤容量需求,從而降低了相關(guān)磁盤成本(參見圖2)。
隨著許多新技術(shù)的出現(xiàn),市場(chǎng)上對(duì)重復(fù)數(shù)據(jù)刪除技術(shù)的理解有些混淆。事實(shí)上,最近的一份ESG調(diào)查2表明,不同規(guī)模的公司機(jī)構(gòu)和行業(yè)對(duì)重復(fù)數(shù)據(jù)刪除有著濃厚的興趣和相當(dāng)?shù)牧私?。ESG認(rèn)為在采用曲線上,早期對(duì)重復(fù)數(shù)據(jù)刪除的濃厚興趣表明在市場(chǎng)上對(duì)其概念的混淆(什么構(gòu)成了重復(fù)數(shù)據(jù)刪除)或者表明重復(fù)數(shù)據(jù)刪除具有強(qiáng)大的吸引力,將其與出現(xiàn)的其他技術(shù)區(qū)別開來(lái),使其打破典型技術(shù)采用曲線規(guī)則。重復(fù)數(shù)據(jù)刪除技術(shù)是顯而易見的,不依賴于應(yīng)變量而被廣泛采用。ESG同時(shí)預(yù)測(cè)重復(fù)數(shù)據(jù)刪除技術(shù)將在明年及后年被廣泛采用。
在后面內(nèi)容中,我們將全面講述重復(fù)數(shù)據(jù)刪除技術(shù),并回答以下問題:
• 什么是重復(fù)數(shù)據(jù)刪除?在數(shù)據(jù)保護(hù)計(jì)劃中處于何位?
• 重復(fù)數(shù)據(jù)刪除和其他備份方法或技術(shù)有那些不同?
• 重復(fù)數(shù)據(jù)刪除有哪些優(yōu)勢(shì)?
• 怎樣執(zhí)行重復(fù)數(shù)據(jù)刪除?
最后,我們將講述昆騰DXi系列磁盤備份和復(fù)制設(shè)備,昆騰的重復(fù)數(shù)據(jù)刪除方式以及其可能為您的數(shù)據(jù)保護(hù)環(huán)境所帶來(lái)的好處。
定義重復(fù)數(shù)據(jù)刪除
先看一個(gè)簡(jiǎn)單的定義。ESG將重復(fù)數(shù)據(jù)刪除定義為刪除或擦去冗余文件、字節(jié)或數(shù)據(jù)塊的流程,確保只有“獨(dú)有”的數(shù)據(jù)存儲(chǔ)在磁盤上。重復(fù)數(shù)據(jù)刪除也是ESG所謂的容量?jī)?yōu)化保護(hù)技術(shù)(COP)的一個(gè)例證。COP技術(shù)用于減少數(shù)據(jù)保護(hù)相關(guān)的容量需求。
重復(fù)數(shù)據(jù)刪除擁有許多潛在優(yōu)勢(shì),最獨(dú)到的一點(diǎn)則是,重復(fù)數(shù)據(jù)刪除通過(guò)有效減少后端容量需求,正面解決了“容量膨脹”問題。圖3給出了相關(guān)圖釋說(shuō)明。
在此圖中,重復(fù)數(shù)據(jù)用多個(gè)相同顏色的盒子來(lái)表示。然而重復(fù)數(shù)據(jù)刪除粒度或效率(能夠檢測(cè)多少重復(fù)數(shù)據(jù))會(huì)根據(jù)應(yīng)用或數(shù)據(jù)類型而變,底線是相同顏色方塊(參見上面圖釋)有效減少。
重復(fù)數(shù)據(jù)刪除處理的粒度越多,容量減少的越大??傮w來(lái)看,文件級(jí)的重復(fù)數(shù)據(jù)刪除雖然有效,但其檢測(cè)的重復(fù)數(shù)據(jù)要少于塊級(jí)或字節(jié)級(jí)的重復(fù)數(shù)據(jù)刪除;同樣,塊級(jí)重復(fù)數(shù)據(jù)刪除在檢測(cè)數(shù)據(jù)重復(fù)上比字節(jié)級(jí)的重復(fù)數(shù)據(jù)刪除通常更有效。
下面例子說(shuō)明在粒度上的差別:某終端用戶制作了1MB的PowerPoint演示文檔,然后以郵件附件形式發(fā)給內(nèi)部20個(gè)人審閱。在傳統(tǒng)備份環(huán)境下(沒有重復(fù)數(shù)據(jù)刪除),雖然文件沒有任何變化,但每個(gè)附件都會(huì)在每晚完全備份過(guò)程中被全部備份,耗費(fèi)不必要的磁盤容量(20×1MB)。即使是小公司,考慮到磁盤物理容量、功率和冷卻等情況,此冗余成本也頗為可觀。
然而,文件級(jí)重復(fù)數(shù)據(jù)刪除只保存一份PowerPoint文檔備份,所有其他附件(如重復(fù)的拷貝)都被“指針”替代,從而釋放磁盤空間容量,并在客戶需要的情況下延長(zhǎng)保留時(shí)長(zhǎng)。
更多粒度的重復(fù)刪除方法,塊級(jí)和字節(jié)級(jí)重復(fù)數(shù)據(jù)刪除技術(shù)將此流程推進(jìn)一步。這些方法查看構(gòu)成新1MB文件的每個(gè)片段,與重復(fù)數(shù)據(jù)刪除系統(tǒng)先前遇到的元素相比較,在新文件中用指針替代重復(fù)元素,而不用重新存儲(chǔ)。(不同廠商在處理流程上有所不同。在有些情況下,產(chǎn)品的性能可能受到不同的比較元素方式、在磁盤上執(zhí)行寫入和管理的影響)
除了重復(fù)數(shù)據(jù)刪除流程粒度之外,還有其他因素也會(huì)影響重復(fù)數(shù)據(jù)刪除比率。例如,生成的數(shù)據(jù)類型(有些數(shù)據(jù)本身即更易于復(fù)制)、數(shù)據(jù)變化頻率等都影響重復(fù)數(shù)據(jù)刪除比率。ESG實(shí)驗(yàn)室測(cè)試過(guò)幾種重復(fù)數(shù)據(jù)刪除技術(shù),并認(rèn)為不考慮重復(fù)數(shù)據(jù)刪除流程粒度,10-20倍的容量縮減是現(xiàn)實(shí)的。
還有一點(diǎn)值得注意,重復(fù)數(shù)據(jù)刪除是一種特性或技術(shù),而非獨(dú)立的產(chǎn)品,首先應(yīng)用于數(shù)據(jù)保護(hù)和保留領(lǐng)域。然而ESG預(yù)測(cè),隨著時(shí)間推移,重復(fù)數(shù)據(jù)刪除還將應(yīng)用于其他存儲(chǔ)領(lǐng)域。
將重復(fù)數(shù)據(jù)刪除技術(shù)應(yīng)用到傳統(tǒng)備份
將重復(fù)數(shù)據(jù)刪除應(yīng)用到傳統(tǒng)備份方式中(完整備份、增量備份、差異備份)有著深遠(yuǎn)的積極意義,能夠有效減少需要備份的數(shù)據(jù)量,如圖4所示。
讓我們更進(jìn)一步了解下面的備份方法:完全備份、增量備份、差異備份以及EGS所指的重復(fù)數(shù)據(jù)刪除備份。
• 完全備份:通常規(guī)律進(jìn)行(如每天、每周,等),包括公司數(shù)據(jù)的全部備份或映像。完整備份不區(qū)別“變化”的數(shù)據(jù)或“獨(dú)有”數(shù)據(jù),隨每次備份復(fù)制全部數(shù)據(jù)。然而,完全備份的數(shù)據(jù)恢復(fù)通常比其他備份方法更簡(jiǎn)捷,用時(shí)少。
• 增量備份:與完全備份不同,增量備份僅復(fù)制上一次完全或增量備份后發(fā)生變化的文件。增量備份的主要優(yōu)勢(shì)是減少了每天備份文件的數(shù)量(與完全備份相比),允許更短的備份窗口。然而,在恢復(fù)數(shù)據(jù)過(guò)程中,由于需要恢復(fù)上一次完全備份和所有后續(xù)增量映像或副本,因此用時(shí)明顯較長(zhǎng)。
• 差異備份:備份上一次“完全”備份后被修改的“全部”數(shù)據(jù)。差異備份與增量備份的不同之處在于,增量備份只針對(duì)上一次完全備份或增量備份后被修改的數(shù)據(jù)。發(fā)生變化的文件在下一次完全備份前,每天都將執(zhí)行備份。很顯然,差異備份的劣勢(shì)在于,隨著文件的改變,備份量在一周內(nèi)不斷增加,直至下一次的每周完全備份。然而,在恢復(fù)方面,差異備份只需恢復(fù)完全備份和最近差異備份的映像,從而獲得比增量備份更快的恢復(fù)時(shí)間(視恢復(fù)時(shí)間的不同而不同)。
• 重復(fù)數(shù)據(jù)刪除備份:通過(guò)將重復(fù)數(shù)據(jù)刪除技術(shù)應(yīng)用到三種傳統(tǒng)備份方法中,用戶可有效減少需要備份的非獨(dú)有數(shù)據(jù)量。完全備份、增量備份和差異備份不會(huì)執(zhí)行“獨(dú)有性”掃描。實(shí)際的重復(fù)數(shù)據(jù)刪除率取決于多個(gè)變量(如上述),但一般會(huì)在10-20倍之間。
重復(fù)數(shù)據(jù)刪除優(yōu)勢(shì)
對(duì)用戶來(lái)說(shuō),重復(fù)數(shù)據(jù)刪除技術(shù)擁有多項(xiàng)重要和直接的優(yōu)勢(shì)。首先,它可以有效減少備份容量需求,從而從多方面實(shí)現(xiàn)成本節(jié)約。它釋放了備份數(shù)據(jù)的容量,實(shí)現(xiàn)更長(zhǎng)的數(shù)據(jù)保留,改善RTO和可靠性,使基于WAN的遠(yuǎn)程備份和復(fù)制更高效。具體來(lái)說(shuō):
• 減少備份容量需求帶來(lái)成本節(jié)約。各個(gè)公司機(jī)構(gòu)的實(shí)際容量縮減幅度各不相同,取決于需要備份的數(shù)據(jù)類型、數(shù)據(jù)變化率和備份頻率等因素。ESG實(shí)驗(yàn)室研究發(fā)現(xiàn),容量縮減幅度一般保持在10-20倍。在這個(gè)幅度中實(shí)現(xiàn)的磁盤容量需求減縮將為用戶帶來(lái)強(qiáng)有力的成本節(jié)約,包括:更小的磁盤、更低的能耗和冷卻成本。在1TB磁盤上存儲(chǔ)20TB的備份數(shù)據(jù)能力更大大節(jié)省了磁盤成本。在當(dāng)前數(shù)據(jù)保護(hù)環(huán)境下,對(duì)能耗和冷卻成本的考量日漸重要,因此,在更少的磁盤上存儲(chǔ)更多的備份數(shù)據(jù)(例如在1TB磁盤上存儲(chǔ)20TB備份數(shù)據(jù))將大幅降低能耗和冷卻需求。
• “釋放”容量意味著以更少的介質(zhì)管理,完成更多的備份數(shù)據(jù),獲取更長(zhǎng)的數(shù)據(jù)保留時(shí)間。重復(fù)數(shù)據(jù)刪除可以減少用于備份的物理磁盤量,重獲的磁盤容量可應(yīng)用于:1)在磁盤上備份其他數(shù)據(jù);2) 延長(zhǎng)磁盤上已備份數(shù)據(jù)的保留期。底線:重復(fù)數(shù)據(jù)刪除技術(shù)使磁盤被用作備份更多數(shù)據(jù);而更重要的是,磁盤上的數(shù)據(jù)可以保留更長(zhǎng)的時(shí)間。這將為用戶帶來(lái)巨大利益。設(shè)想一下,你可以不依靠磁帶,就順利恢復(fù)3-6個(gè)月(甚至更長(zhǎng)時(shí)間)以前的數(shù)據(jù)。如果沒有重復(fù)數(shù)據(jù)刪除技術(shù),這樣做花費(fèi)會(huì)很大;而利用重復(fù)數(shù)據(jù)刪除技術(shù),這樣做將不僅可行,而且經(jīng)濟(jì)高效。磁帶將被用來(lái)進(jìn)行數(shù)據(jù)的長(zhǎng)期歸檔,以便應(yīng)對(duì)罕見的災(zāi)難數(shù)據(jù)恢復(fù)所需。
• 重復(fù)數(shù)據(jù)刪除改善恢復(fù)時(shí)間目標(biāo)(RTO)和可靠性。用戶備份到磁盤的數(shù)據(jù)越多,就越能滿足RTO需求,進(jìn)而滿足數(shù)據(jù)保護(hù)服務(wù)等級(jí)協(xié)定(SLA)。重復(fù)數(shù)據(jù)刪除技術(shù)使客戶在磁盤上備份更多的數(shù)據(jù),保留更長(zhǎng)的時(shí)間,從而提高RTO。實(shí)際上,磁盤數(shù)據(jù)恢復(fù)的速度遠(yuǎn)高于磁帶。至于可靠性,數(shù)據(jù)在磁盤上能夠保存更長(zhǎng)的時(shí)間,因此用戶很少再依賴磁帶進(jìn)行數(shù)據(jù)恢復(fù)。
• 支持并擴(kuò)展基于WAN的備份數(shù)據(jù)遠(yuǎn)程復(fù)制選項(xiàng)。重復(fù)數(shù)據(jù)刪除技術(shù)優(yōu)勢(shì)在于其能夠減少備份數(shù)據(jù)量。由于通過(guò)WAN的物理數(shù)據(jù)量減少(參見圖5),重復(fù)數(shù)據(jù)刪除技術(shù)為各大企業(yè)減少了了進(jìn)入基于WAN的遠(yuǎn)程復(fù)制“成本”或“帶寬”,使一些公司可以首次實(shí)現(xiàn)基于WAN的遠(yuǎn)程復(fù)制;而另一些公司則可以為其遠(yuǎn)程數(shù)據(jù)(包括先前未受保護(hù)的遠(yuǎn)程數(shù)據(jù))部署更寬的數(shù)據(jù)保護(hù)網(wǎng)絡(luò)。
執(zhí)行重復(fù)數(shù)據(jù)刪除
執(zhí)行重復(fù)數(shù)據(jù)刪除的方式有多種??即可通過(guò)軟件,也可利用硬件設(shè)備。就重復(fù)數(shù)據(jù)刪除流程的源頭??即重復(fù)數(shù)據(jù)刪除所真正執(zhí)行的地點(diǎn)??來(lái)說(shuō),則是通過(guò)在線或離線執(zhí)行:
• 在線:重復(fù)數(shù)據(jù)刪除在主機(jī)端通過(guò)備份應(yīng)用或數(shù)據(jù)路徑中的某一設(shè)備完成。
• 離線,或事后處理流程:備份工作完成后,通過(guò)系統(tǒng)或備份路徑外的設(shè)備完成重復(fù)數(shù)據(jù)刪除。
兩種方法對(duì)于消除重復(fù)數(shù)據(jù)都非常有效,ESG實(shí)驗(yàn)室測(cè)試更證實(shí)其將帶來(lái)巨大效益。但是任何一項(xiàng)技術(shù)都會(huì)有所犧牲,對(duì)重復(fù)數(shù)據(jù)刪除技術(shù)而言,則是性能和容量。在數(shù)據(jù)路徑內(nèi)執(zhí)行重復(fù)數(shù)據(jù)刪除會(huì)影響性能;而離線執(zhí)行該流程還將影響容量,因?yàn)槿萘孔畛跏欠峙浣o備份流程的(在重復(fù)刪除過(guò)程結(jié)束后才釋放容量)。
. 判斷最適合你環(huán)境的方案需要進(jìn)行全面的容量/性能平衡分析。如果性能是關(guān)鍵性要素,那么最好采取離線方式;但如果期望在整個(gè)過(guò)程中獲取最佳磁盤容量節(jié)省,那么在線方式可能更好。當(dāng)然,在線和離線只是評(píng)估重復(fù)數(shù)據(jù)刪除技術(shù)要考量的因素之一。如前所述,技術(shù)也會(huì)隨著重復(fù)刪除執(zhí)行的程度或粒度等級(jí)而有所區(qū)別。當(dāng)評(píng)估現(xiàn)有技術(shù)時(shí),上述所有方面都是重要的考量因素。
注意到每種方法在性能、容量、成本方面的利弊很重要。ESG認(rèn)為,重復(fù)數(shù)據(jù)刪除的優(yōu)勢(shì)??特別是潛在的磁盤成本節(jié)約??具備足夠的重要性,保證了該項(xiàng)技術(shù)在業(yè)界的廣泛采用。
結(jié)論
由于不斷增加的數(shù)據(jù)量和更具挑戰(zhàn)的商業(yè)SLA協(xié)議,用戶所面對(duì)的問題日益嚴(yán)峻:一方面,他們需要更長(zhǎng)期地在磁盤中在線保留更多備份數(shù)據(jù)以滿足恢復(fù)目標(biāo);另一方面,他們也需要控制數(shù)據(jù)保護(hù)相關(guān)預(yù)算。如果沒有重復(fù)數(shù)據(jù)刪除這樣的技術(shù)(該技術(shù)使基于磁盤的數(shù)據(jù)保護(hù)更高效),企業(yè)會(huì)發(fā)現(xiàn),為了最小化系統(tǒng)宕機(jī)造成的負(fù)面業(yè)務(wù)影響(例如應(yīng)用程序宕機(jī)、用戶不滿、數(shù)據(jù)丟失、直接收入損失,等),他們將面臨不斷增加的存儲(chǔ)容量和/或WAN帶寬相關(guān)成本的問題;也有可能面臨風(fēng)險(xiǎn),并限制實(shí)際備份到基于磁盤系統(tǒng)(如VTL)中的數(shù)據(jù)。
重復(fù)數(shù)據(jù)刪除有效地改善了基于磁盤數(shù)據(jù)保護(hù)的成本效益,使效率等級(jí)高于沒有此項(xiàng)技術(shù)的情形,消除了困擾當(dāng)今數(shù)據(jù)中心的問題?,F(xiàn)在,公司可以可靠、快速地恢復(fù)數(shù)據(jù)、備份遠(yuǎn)程辦公室數(shù)據(jù),并最小化磁帶備份。正因?yàn)榇耍貜?fù)數(shù)據(jù)刪除技術(shù)才稱得上是業(yè)界非常重要的技術(shù)。