次文件層重復數(shù)據(jù)刪除(SNIA

第一個對象由ABCZDYEF塊所組成,第二個對象由ABDGHJECF塊所組成。因此,相同的塊就是ABCDEF.原始數(shù)據(jù)應該有8加9個塊,也就是總共17個塊。被重復數(shù)據(jù)刪除后的數(shù)據(jù)只需要每個對象中各自獨一無二的兩個塊(Z和Y)和三個塊(G、H和J),再加上6個共同的塊,以及一些指針頭和其他數(shù)據(jù)來幫助重建,也就是總共11個塊。

如果我們加入第三個文件,比如說對第一個文件的修改,編輯成XBCZDYEF,那么只需要處理新的塊(X)。12個塊和一些指針就足以存儲這三個不同的對象所需的所有信息。壓縮技術可以進一步減少被重復數(shù)據(jù)刪除的數(shù)據(jù)所占用的空間。根據(jù)數(shù)據(jù)類型的不同,有可能進一步壓縮到原來數(shù)據(jù)的50%.例子中原來的17個塊可能被減少到6個塊。

重復數(shù)據(jù)刪除使用案例

有許多類型的數(shù)據(jù)可以從這種容量縮減技術中受益,包括備份–備份數(shù)據(jù)的每個數(shù)據(jù)流都和最后的備份非常相似,只有很少比例的數(shù)據(jù)在每個備份之間有變動。對備份數(shù)據(jù)進行重復數(shù)據(jù)刪除操作的效率可以達到20比1,而且通常還更高。在虛擬機鏡像中,每個鏡像都很大程度上和其他鏡像非常相似,因此也適用于重復數(shù)據(jù)刪除,在實踐中可以節(jié)約90%或更多的空間。

重復數(shù)據(jù)刪除可以用于備份、主存儲、WAN(廣域網)優(yōu)化、歸檔和災難恢復。實際上,任何一個數(shù)據(jù)存儲和傳輸?shù)牡胤蕉伎梢允褂弥貜蛿?shù)據(jù)刪除技術。

需要考慮的要點

重復數(shù)據(jù)刪除技術看起來是很好的技術–不過,就像所有技術那樣,要利用好這個技術需要理解它所適用的環(huán)境和不適用的環(huán)境,同時還要了解各個不同廠商所提供產品的不同特點。

不是所有的數(shù)據(jù)類型都可以很好地進行重復數(shù)據(jù)刪除。一些數(shù)據(jù)類型是有問題的,比如視頻流或地球物理數(shù)據(jù)。這些類型的數(shù)據(jù)很多沒有或很少重復性數(shù)據(jù),而且可能已經被壓縮過了。另一方面,無論數(shù)據(jù)類型是什么,備份的重復數(shù)據(jù)刪除效率總是很高,因為其中的大量數(shù)據(jù)通常不會變動。

不過一般而言大部分數(shù)據(jù)類型和數(shù)據(jù)來源都有可以進行重復數(shù)據(jù)刪除的潛力–例如,主目錄和VM(虛擬機)鏡像。被執(zhí)行重復數(shù)據(jù)刪除流程后的數(shù)據(jù)有可能訪問起來比較慢,因為相較那些沒有被重復數(shù)據(jù)刪除的文件而言,重建數(shù)據(jù)可能需要使用存儲系統(tǒng)更多的處理資源,通常是更多的CPU資源。

另一方面,被重復數(shù)據(jù)刪除后的數(shù)據(jù)也有可能可以訪問得更快,因為需要從慢磁盤中遷移的數(shù)據(jù)更少了。閃存存儲設備存儲控制器上的高速緩存或網絡本身的高速緩存可以大幅減少磁盤子系統(tǒng)整體的I/O負荷。不過,各人的情況有所不同,而且對重復數(shù)據(jù)刪除好處的評估需要理解你所提供的服務和你所管理的數(shù)據(jù)。

大部分數(shù)據(jù)類型可以從重復數(shù)據(jù)刪除中獲益,因為重復數(shù)據(jù)刪除的開銷比較小而節(jié)約比較大,不過需要快速訪問的高性能應用程序通常不適合重復數(shù)據(jù)刪除。

小結

重復數(shù)據(jù)刪除可以緩解管理數(shù)據(jù)增長的壓力,減少網絡帶寬需求,從而改善容量和性能效率。重復數(shù)據(jù)刪除可以帶來顯著的成本節(jié)約–從更低的管理成本(因為只需要管理更少的存儲)到更少的容量、電源和冷卻需求。通過減少單位存儲字節(jié)碳排放,重復數(shù)據(jù)刪除可以使數(shù)據(jù)中心更加綠色。

在回答“重復數(shù)據(jù)刪除是否能給我的數(shù)據(jù)中心帶來好處?”這個問題的時候,通常的回答是:“是的,可以”.目前重復數(shù)據(jù)刪除技術的成功應該可以鼓勵每位存儲管理員嘗試一下。

分享到

jianglily

相關推薦