Cell,形象稱之為“細(xì)胞”,指帶“活性”的數(shù)據(jù)單元,是存儲資源管理的基本單位。引入Cell的概念后,資源管理層次如下圖所示,在具體的實(shí)現(xiàn)上,首先用物理磁盤創(chuàng)建RAID,然后把RAID的可用空間根據(jù)指定長度(默認(rèn)1GB)劃分為多個(gè)Cell,創(chuàng)建LUN時(shí),系統(tǒng)自動(dòng)分配空閑Cell,破除了LUN與RAID、Disk之間的捆綁關(guān)系,使RAID的最小維護(hù)單位由原來的磁盤變成了更小更靈活的Cell,實(shí)現(xiàn)了完全的虛擬化存儲架構(gòu)。
按照Cell維護(hù)健康狀態(tài),突破了傳統(tǒng)RAID對可容忍的磁盤數(shù)目的限制。比如,傳統(tǒng)的RAID5支持1塊磁盤故障,第2塊磁盤故障時(shí),RAID失效,不能繼續(xù)使用。在ODSP存儲軟件平臺的實(shí)現(xiàn)中,只要磁盤出錯(cuò)區(qū)域不在同一個(gè)Cell內(nèi),RAID中的數(shù)據(jù)仍然可以訪問,即RAID可容忍非同一個(gè)Cell內(nèi)多個(gè)磁盤發(fā)生介質(zhì)錯(cuò)誤,在極端的情況下,可能出現(xiàn)RAID中所有的成員磁盤上都存在介質(zhì)錯(cuò)誤,但是數(shù)據(jù)仍然可以訪問,提高了存儲產(chǎn)品對硬盤的容錯(cuò)性以及業(yè)務(wù)連續(xù)性。同時(shí),針對多個(gè)磁盤出錯(cuò)區(qū)域在同一個(gè)Cell內(nèi)的情況,ODSP存儲軟件平臺繼承了物理的處理方式,即這些磁盤錯(cuò)誤僅影響當(dāng)前的Cell,其他Cell仍然可以繼續(xù)訪問,使得錯(cuò)誤的影響范圍降到最小。
區(qū)別于傳統(tǒng)RAID先踢盤再重建的方式,CRAID的快速重建可只重建錯(cuò)誤磁盤上的損壞數(shù)據(jù)塊,未發(fā)生錯(cuò)誤的區(qū)域直接使用拷貝方式將數(shù)據(jù)塊復(fù)制到熱備盤,重建完成后,再將錯(cuò)誤磁盤轉(zhuǎn)移至IDDC磁盤診斷中心處理,該方式可明顯降低重建過程對RAID組性能造成的影響。
傳統(tǒng)RAID組重建時(shí),最消耗性能和時(shí)間的原因是需要調(diào)用所有磁盤進(jìn)行異或校驗(yàn)??焖僦亟ㄓ捎趯⑷P校驗(yàn)改成了按Cell校驗(yàn)+磁盤復(fù)制,其校驗(yàn)任務(wù)只有傳統(tǒng)全盤重建的幾百分一或千分之一,校驗(yàn)時(shí)間幾乎可以忽略不記,而磁盤復(fù)制的速度可以達(dá)到磁盤讀寫的最大值。以1TB的SATA磁盤為例,在15塊盤的RAID中,全盤重建時(shí)間約30小時(shí),而快速重建的時(shí)間差最快可以達(dá)到6小時(shí)。
類似于快速重建,但不是重建熱備盤,而是只對原盤的變化部分進(jìn)行重建,使其同步。適用于磁盤未損壞,但發(fā)生過閃斷或人為誤操作,短時(shí)間內(nèi)拔出又插回的情況。該方法可重建5分鐘內(nèi)磁盤不在位過程中所丟失的數(shù)據(jù),重建時(shí)間短,極大降低RAID組受影響程度。
![]() |
|
![]() |
僅重建被LUN使用的Cell,未使用的Cell不重建,如下圖,僅重建Cell1、2、3、4,Cell5、6不需重建;
重建調(diào)度時(shí),優(yōu)先重建存在介質(zhì)錯(cuò)誤的Cell,然后再使用拷貝的方式重建其他Cell,以盡可能的避免該Cell所處的其它磁盤發(fā)生故障導(dǎo)致的Cell損壞;
支持多重重建,可同時(shí)重建多個(gè)故障磁盤,如一個(gè)RAID組中的兩塊磁盤所處的不同Cell存在壞塊,可以兩個(gè)Cell并發(fā)重建,提高重建總體效率。
與傳統(tǒng)RAID組一樣,適用于磁盤被拔走或者磁盤嚴(yán)重故障不能繼續(xù)使用的情況使用。