次文件層重復(fù)數(shù)據(jù)刪除(SNIA)
第一個(gè)對(duì)象由ABCZDYEF塊所組成,第二個(gè)對(duì)象由ABDGHJECF塊所組成。因此,相同的塊就是ABCDEF.原始數(shù)據(jù)應(yīng)該有8加9個(gè)塊,也就是總共17個(gè)塊。被重復(fù)數(shù)據(jù)刪除后的數(shù)據(jù)只需要每個(gè)對(duì)象中各自獨(dú)一無(wú)二的兩個(gè)塊(Z和Y)和三個(gè)塊(G、H和J),再加上6個(gè)共同的塊,以及一些指針頭和其他數(shù)據(jù)來(lái)幫助重建,也就是總共11個(gè)塊。
如果我們加入第三個(gè)文件,比如說(shuō)對(duì)第一個(gè)文件的修改,編輯成XBCZDYEF,那么只需要處理新的塊(X)。12個(gè)塊和一些指針就足以存儲(chǔ)這三個(gè)不同的對(duì)象所需的所有信息。壓縮技術(shù)可以進(jìn)一步減少被重復(fù)數(shù)據(jù)刪除的數(shù)據(jù)所占用的空間。根據(jù)數(shù)據(jù)類型的不同,有可能進(jìn)一步壓縮到原來(lái)數(shù)據(jù)的50%.例子中原來(lái)的17個(gè)塊可能被減少到6個(gè)塊。
重復(fù)數(shù)據(jù)刪除使用案例
有許多類型的數(shù)據(jù)可以從這種容量縮減技術(shù)中受益,包括備份–備份數(shù)據(jù)的每個(gè)數(shù)據(jù)流都和最后的備份非常相似,只有很少比例的數(shù)據(jù)在每個(gè)備份之間有變動(dòng)。對(duì)備份數(shù)據(jù)進(jìn)行重復(fù)數(shù)據(jù)刪除操作的效率可以達(dá)到20比1,而且通常還更高。在虛擬機(jī)鏡像中,每個(gè)鏡像都很大程度上和其他鏡像非常相似,因此也適用于重復(fù)數(shù)據(jù)刪除,在實(shí)踐中可以節(jié)約90%或更多的空間。
重復(fù)數(shù)據(jù)刪除可以用于備份、主存儲(chǔ)、WAN(廣域網(wǎng))優(yōu)化、歸檔和災(zāi)難恢復(fù)。實(shí)際上,任何一個(gè)數(shù)據(jù)存儲(chǔ)和傳輸?shù)牡胤蕉伎梢允褂弥貜?fù)數(shù)據(jù)刪除技術(shù)。
需要考慮的要點(diǎn)
重復(fù)數(shù)據(jù)刪除技術(shù)看起來(lái)是很好的技術(shù)–不過(guò),就像所有技術(shù)那樣,要利用好這個(gè)技術(shù)需要理解它所適用的環(huán)境和不適用的環(huán)境,同時(shí)還要了解各個(gè)不同廠商所提供產(chǎn)品的不同特點(diǎn)。
不是所有的數(shù)據(jù)類型都可以很好地進(jìn)行重復(fù)數(shù)據(jù)刪除。一些數(shù)據(jù)類型是有問(wèn)題的,比如視頻流或地球物理數(shù)據(jù)。這些類型的數(shù)據(jù)很多沒(méi)有或很少重復(fù)性數(shù)據(jù),而且可能已經(jīng)被壓縮過(guò)了。另一方面,無(wú)論數(shù)據(jù)類型是什么,備份的重復(fù)數(shù)據(jù)刪除效率總是很高,因?yàn)槠渲械拇罅繑?shù)據(jù)通常不會(huì)變動(dòng)。
不過(guò)一般而言大部分?jǐn)?shù)據(jù)類型和數(shù)據(jù)來(lái)源都有可以進(jìn)行重復(fù)數(shù)據(jù)刪除的潛力–例如,主目錄和VM(虛擬機(jī))鏡像。被執(zhí)行重復(fù)數(shù)據(jù)刪除流程后的數(shù)據(jù)有可能訪問(wèn)起來(lái)比較慢,因?yàn)橄噍^那些沒(méi)有被重復(fù)數(shù)據(jù)刪除的文件而言,重建數(shù)據(jù)可能需要使用存儲(chǔ)系統(tǒng)更多的處理資源,通常是更多的CPU資源。
另一方面,被重復(fù)數(shù)據(jù)刪除后的數(shù)據(jù)也有可能可以訪問(wèn)得更快,因?yàn)樾枰獜穆疟P中遷移的數(shù)據(jù)更少了。閃存存儲(chǔ)設(shè)備存儲(chǔ)控制器上的高速緩存或網(wǎng)絡(luò)本身的高速緩存可以大幅減少磁盤子系統(tǒng)整體的I/O負(fù)荷。不過(guò),各人的情況有所不同,而且對(duì)重復(fù)數(shù)據(jù)刪除好處的評(píng)估需要理解你所提供的服務(wù)和你所管理的數(shù)據(jù)。
大部分?jǐn)?shù)據(jù)類型可以從重復(fù)數(shù)據(jù)刪除中獲益,因?yàn)橹貜?fù)數(shù)據(jù)刪除的開(kāi)銷比較小而節(jié)約比較大,不過(guò)需要快速訪問(wèn)的高性能應(yīng)用程序通常不適合重復(fù)數(shù)據(jù)刪除。
小結(jié)
重復(fù)數(shù)據(jù)刪除可以緩解管理數(shù)據(jù)增長(zhǎng)的壓力,減少網(wǎng)絡(luò)帶寬需求,從而改善容量和性能效率。重復(fù)數(shù)據(jù)刪除可以帶來(lái)顯著的成本節(jié)約–從更低的管理成本(因?yàn)橹恍枰芾砀俚拇鎯?chǔ))到更少的容量、電源和冷卻需求。通過(guò)減少單位存儲(chǔ)字節(jié)碳排放,重復(fù)數(shù)據(jù)刪除可以使數(shù)據(jù)中心更加綠色。
在回答“重復(fù)數(shù)據(jù)刪除是否能給我的數(shù)據(jù)中心帶來(lái)好處?”這個(gè)問(wèn)題的時(shí)候,通常的回答是:“是的,可以”.目前重復(fù)數(shù)據(jù)刪除技術(shù)的成功應(yīng)該可以鼓勵(lì)每位存儲(chǔ)管理員嘗試一下。