王震認(rèn)為,現(xiàn)在的人們對(duì)重復(fù)數(shù)據(jù)刪除技術(shù)的渴望給了SEPATON以極大的市場(chǎng)機(jī)會(huì)

僅從重復(fù)數(shù)據(jù)刪除對(duì)比壓縮的情況來看,王震表示,首先,從實(shí)際的測(cè)試來看,二者的時(shí)間區(qū)別并不長(zhǎng),并非人們所想那樣重復(fù)數(shù)據(jù)刪除會(huì)需要遠(yuǎn)遠(yuǎn)超過壓縮的時(shí)間(這與SEPATON的技術(shù)實(shí)現(xiàn)方式有很大關(guān)系),其次,從數(shù)據(jù)上來講,有別于壓縮,應(yīng)用系統(tǒng)數(shù)據(jù)有多種,影音、數(shù)據(jù)庫、文件、圖片,有些已經(jīng)做了壓縮,有些還沒有——“如果單純用再壓縮的方式去處理數(shù)據(jù)的話,對(duì)于很多數(shù)據(jù)的效果是很有限的,傳輸需要的帶寬要求依舊很高。”

王震表示,重復(fù)數(shù)據(jù)刪除是基于數(shù)據(jù)的識(shí)別,摘要的提取的數(shù)據(jù)鑒別過程——在傳輸過程開始后,二者的區(qū)別就會(huì)顯現(xiàn),傳輸時(shí)間上的節(jié)省,讓重復(fù)數(shù)據(jù)刪除的過程并非落后于壓縮。

實(shí)際上,這并不是SEPATON的DeltaRemote數(shù)據(jù)傳輸技術(shù)的全部——這需要詳細(xì)的了解SEPATON的內(nèi)容已知架構(gòu),而非簡(jiǎn)單的將其重復(fù)數(shù)據(jù)刪除技術(shù)在理念層面進(jìn)行比較,且由于SEPATON的重復(fù)數(shù)據(jù)刪除技術(shù)是整合在其遠(yuǎn)程數(shù)據(jù)傳輸中的,因此,分步驟、分階段的工作流程,就成為了解SEPATON的DeltaRemote遠(yuǎn)程復(fù)制為何能夠通過重復(fù)數(shù)據(jù)技術(shù)加速的必須前提。

內(nèi)容感知:SEPATON的重復(fù)數(shù)據(jù)刪除過程

在談起有關(guān)重復(fù)數(shù)據(jù)刪除和壓縮比較的話題時(shí),王震說了這樣一段話:“Sepaton進(jìn)行一種差分運(yùn)算,因?yàn)閿?shù)據(jù)必然存在重復(fù),(因此)會(huì)有很高的精簡(jiǎn)比,(當(dāng)然)有特定的適用范圍,備份是一個(gè)(重要的)應(yīng)用領(lǐng)域,而壓縮是對(duì)數(shù)據(jù)實(shí)體進(jìn)行擠壓,重復(fù)數(shù)據(jù)刪除是數(shù)據(jù)實(shí)體的鑒別,需要的時(shí)間會(huì)比壓縮長(zhǎng),但Sepaton會(huì)去規(guī)避。”

這也就是王震為何表示:“從實(shí)際的測(cè)試來看,二者的時(shí)間區(qū)別并不長(zhǎng),并非人們所想那樣重復(fù)數(shù)據(jù)刪除會(huì)需要遠(yuǎn)遠(yuǎn)超過壓縮的時(shí)間。”的重要原因。

首先,我們要初步的了解一下SEPATON的DeltaRemote的遠(yuǎn)程復(fù)制、備份的數(shù)據(jù)傳輸?shù)牟襟E——據(jù)王震介紹,SEPATON將這一過程統(tǒng)籌在內(nèi)容識(shí)別及傳輸整合的流程之下,分為了五個(gè)步驟:第一步是完成本地的備份,無論是通過備份軟件還是硬件備份;第二步是在副本和副本之間的比對(duì),也就是新的備份和老的備份之間,進(jìn)行分析,提取Metadata(元數(shù)據(jù)),形成了數(shù)據(jù)副本的摘要信息;第三步是數(shù)據(jù)重組,根據(jù)抽取的信息摘要進(jìn)行設(shè)定指針,在對(duì)應(yīng)數(shù)據(jù)之間,利用指針關(guān)系對(duì)應(yīng)連向最新的數(shù)據(jù)——也就是老數(shù)據(jù)指向最新的,第四做完整性檢查,看看數(shù)據(jù)是否有丟失和損壞;第五步將老數(shù)據(jù)中重復(fù)的部分刪除掉。

但SEPATON并不是在本地就把這五個(gè)部分做完再把數(shù)據(jù)傳向異地,據(jù)王震介紹,“而是在第二個(gè)部分,再抽取信息摘要——Metadata之后,在進(jìn)行數(shù)據(jù)指針定向之前,將這部分抽取的Metadata、唯一的數(shù)據(jù)以及數(shù)據(jù)來源的介紹,以磁帶的形式傳送到異地,在異地從第三步至第五步繼續(xù)完成重復(fù)數(shù)據(jù)刪除過程。”——顯然,相對(duì)于在本地完成重復(fù)數(shù)據(jù)刪除,只是多了一個(gè)傳送的時(shí)間,但由于Metadata的數(shù)據(jù)非常小,而唯一的數(shù)據(jù)如果(在備份,尤其是全備份中,這種“如果”情況的發(fā)生其實(shí)是必然的)很少的話,那么這個(gè)傳送時(shí)間其實(shí)并無多大的影響。

這就是SEPATON的重復(fù)數(shù)據(jù)刪除過程,最終的目的地自然是SEPATON一直引以為豪的VTL,而在介紹了這樣的一個(gè)過程之后,如果你覺得下面的內(nèi)容已經(jīng)沒有什么新意的話,那么你就大錯(cuò)特錯(cuò)了,因?yàn)橄旅妫覀儗⒁煌瑏硖接懫鋬?nèi)容感知的“五步法”之后的聰明智慧——在開動(dòng)腦筋之前,我們先來將見證SEPATON獨(dú)特的堅(jiān)持重復(fù)數(shù)據(jù)刪除理念。

先談?wù)劽嫦虿呗缘膫浞菖c“VTL的不同角色”

在談及這兩個(gè)話題前,有必要提一下王震對(duì)重復(fù)數(shù)據(jù)刪除的三點(diǎn)看法,以對(duì)下面的話題有一個(gè)鋪墊,王震認(rèn)為,重復(fù)數(shù)據(jù)刪除技術(shù)只能用于備份,如果脫離備份,重復(fù)數(shù)據(jù)刪除很難實(shí)現(xiàn),在線存儲(chǔ)系統(tǒng)的刪除比小會(huì)不好;其次,重復(fù)數(shù)據(jù)刪除是對(duì)冗余數(shù)據(jù)的刪除,是數(shù)據(jù)實(shí)體的鑒別,而不是簡(jiǎn)單的壓縮,或者說是數(shù)據(jù)擠壓,第三,生成的數(shù)據(jù)和原來的數(shù)據(jù)相比,完全是結(jié)構(gòu),基于指針和摘要,定向的結(jié)合體。

因此,王震表示,備份、重復(fù)數(shù)據(jù)刪除策略上SEPATON是不同的,而SEPATON更進(jìn)一步,在重復(fù)數(shù)據(jù)刪除技術(shù)中為用戶提供了更多的選擇——開與不開的區(qū)別就在于用戶的選擇權(quán)利,“開啟的同時(shí)對(duì)特定的應(yīng)用不用重復(fù)數(shù)據(jù)刪除。”

“其它供應(yīng)商是對(duì)VTL的數(shù)據(jù),SEPATON是針對(duì)某一個(gè)策略、某個(gè)應(yīng)用、某個(gè)數(shù)據(jù)類型。”這也就意味著,在一個(gè)群集的VTL中,我們將有大量的靈活的選擇——一個(gè)群集中的幾個(gè)做(重復(fù)數(shù)據(jù)刪除),一臺(tái)主機(jī)上為某個(gè)策略做,而某個(gè)策略不去做,甚至可以在這個(gè)策略上做之外,再?gòu)?fù)制一個(gè)策略不去做,當(dāng)然,這也是上面我們所提到的DeltaRemote的一項(xiàng)創(chuàng)新功能:“把不做的分離開,把做的進(jìn)行重復(fù)數(shù)據(jù)刪除,制定兩個(gè)備份、傳輸?shù)牟呗浴?rdquo;

實(shí)現(xiàn)的過程卻也并不困難:與備份軟件腳本做結(jié)合,插入一些參數(shù);或是在圖形化界面里面,根據(jù)某一個(gè)策略下的某一個(gè)數(shù)據(jù)實(shí)體,為每一個(gè)數(shù)據(jù)集定制。

除此以外,對(duì)于一個(gè)構(gòu)建在網(wǎng)格群集架構(gòu)基礎(chǔ)上進(jìn)行重復(fù)數(shù)據(jù)刪除的SEPATON VTL來說,王震表示SEPATON甚至提供了讓VTL引擎節(jié)點(diǎn)完成“角色扮演”的不同選擇:基于網(wǎng)格,全域的SEPATON VTL架構(gòu),允許重復(fù)數(shù)據(jù)刪除可以均衡的完成,有的節(jié)點(diǎn)專門負(fù)責(zé)計(jì)算、有的節(jié)點(diǎn)專門進(jìn)行備份和恢復(fù)——用王震的話說就是,可以將重復(fù)數(shù)據(jù)刪除集中、特指、分散在各個(gè)節(jié)點(diǎn)上。

不同的VTL引擎節(jié)點(diǎn)從此有了不同的角色:備份節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)或是混合節(jié)點(diǎn)——就像一個(gè)角色扮演游戲。

好了,現(xiàn)在,思考的時(shí)間已經(jīng)夠長(zhǎng)了,我們可以去考慮SEPATON的重復(fù)數(shù)據(jù)刪除到底好在哪里了——抑或是沒有什么思考的結(jié)果?讓我們拭目以待。

思考:SEPATON的聰明之處

首先,讓我們?cè)賮砜纯赐跽鹫f的兩段話:

第一段是這樣說的:“內(nèi)容感知是了解數(shù)據(jù)的內(nèi)容是什么情況,不是針對(duì)一次的備份數(shù)據(jù)的內(nèi)部的對(duì)比,而是在兩次完整的備份數(shù)據(jù)集之間識(shí)別內(nèi)容,備份軟件備份出來的是Image文件,如果發(fā)現(xiàn)兩次備份的數(shù)據(jù)有同樣來源、主機(jī)、策略下的數(shù)據(jù),那就可以刪除一個(gè),留有一個(gè)知識(shí)庫,對(duì)壓縮文件和加密文件會(huì)有一個(gè)不錯(cuò)的刪除比。”

而第二段的內(nèi)容如下所列:“以100GB數(shù)據(jù)為例子,內(nèi)容感知的初次備份一定需要100GB存儲(chǔ)第一次不做的數(shù)據(jù),然后有100GB保存第二次的數(shù)據(jù),至少需要200GB的存儲(chǔ)空間。刪除前一次100GB備份內(nèi)重復(fù)的數(shù)據(jù),保存最新的數(shù)據(jù)。因此,沒有數(shù)據(jù)重組,恢復(fù)速度很快,性能不受到影響。”

現(xiàn)在,我們來解釋一下這些內(nèi)容。

從內(nèi)容感知的五步來看,我們可以更加通俗易懂的來解釋:在對(duì)數(shù)據(jù)進(jìn)行標(biāo)記,提取出必要的、標(biāo)示唯一性的信息之后,將這些需要的信息,包括Metadata、唯一數(shù)據(jù)和數(shù)據(jù)介紹,傳輸?shù)疆惖氐脑O(shè)備上去,而此前,異地的設(shè)備上已經(jīng)有了一個(gè)此前的備份,通過將原有數(shù)據(jù)與新傳輸?shù)臄?shù)據(jù)整合,還原了一份最新的備份數(shù)據(jù)——這將是一份真實(shí)完整的、保存在異地系統(tǒng)中的,本地業(yè)務(wù)系統(tǒng)的數(shù)據(jù)備份,而在此之前存在的那一份,則刪除掉重復(fù)的數(shù)據(jù),變成獨(dú)特?cái)?shù)據(jù)和數(shù)據(jù)介紹的零散組合。之后,當(dāng)下一份被傳送數(shù)據(jù)保存到異地VTL系統(tǒng)內(nèi),會(huì)使用前一份被還原的、完整保存的備份數(shù)據(jù)重復(fù)這個(gè)操作過程,此時(shí),又會(huì)有一份還原后的真實(shí)數(shù)據(jù)被完整保存。

這絕對(duì)是一個(gè)聰明的做法,這將保證,在SEPATON的異地備份端,永遠(yuǎn)能夠擁有一個(gè)可以恢復(fù)系統(tǒng)到最新狀態(tài)的最新備份,如果系統(tǒng)出現(xiàn)問題,無需重新恢復(fù)數(shù)據(jù)的等待時(shí)間和對(duì)備份系統(tǒng)的負(fù)載的要求(眾所周知,重復(fù)數(shù)據(jù)刪除后的數(shù)據(jù)如果需要恢復(fù),至少需要等同于刪除時(shí)間的重構(gòu)時(shí)間)。

而從對(duì)系統(tǒng)的容量要求來看,這同樣具有有利的地方:雖然在備份初期的第一次備份上,SEPATON的方法,由于要保存一個(gè)絕對(duì)最新的備份副本,且這個(gè)副本完全不進(jìn)行重復(fù)數(shù)據(jù)刪除,因此,其需要的初始容量會(huì)超過其他的系統(tǒng),但是在此之后,我們能夠發(fā)現(xiàn),由于其一直在系統(tǒng)中保存一個(gè)最新備份和過去的所有特殊、唯一數(shù)據(jù),并用這些所有的信息進(jìn)行重復(fù)數(shù)據(jù)刪除,而不是只是在每次的備份文件內(nèi)部進(jìn)行重復(fù)數(shù)據(jù)刪除,其容量的需求會(huì)在一定的時(shí)期之后,逐步開始低于那些僅僅在單次數(shù)據(jù)集內(nèi)部進(jìn)行數(shù)據(jù)重復(fù)刪除的一般方法,從而獲得相較于其它重復(fù)數(shù)據(jù)刪除技術(shù)在存儲(chǔ)容量需求方面更好的,且是長(zhǎng)期的經(jīng)濟(jì)性。

這兩點(diǎn),就是SEPATON聰明的地方——更快速的恢復(fù),更經(jīng)濟(jì)的數(shù)據(jù)存儲(chǔ)曲線。

在技術(shù)角度,SEPATON的技術(shù)實(shí)現(xiàn)顯得十分特殊,而這也是在目前重復(fù)數(shù)據(jù)刪除技術(shù)市場(chǎng)中,SEPATON能夠一直有一席之地的原因,而如果市場(chǎng)持續(xù)的轉(zhuǎn)向技術(shù)敏感的話,將顯著有利于SEPATON技術(shù)的發(fā)展,這將是必然的過程。
 

分享到

cuihao

相關(guān)推薦