正所謂商場(chǎng)如戰(zhàn)場(chǎng),對(duì)商業(yè)版圖的開疆拓土同樣離不開智謀無雙的大軍師,在全閃存的世界中,滿足企業(yè)級(jí)應(yīng)用,堪稱“大軍師”的唯有華為OceanStor Dorado V3。原因也很簡(jiǎn)單,首先它具備極致的領(lǐng)先性能;而且從可靠性到大容量閃存存儲(chǔ)、數(shù)據(jù)一致性;從SSD盤到系統(tǒng),從IO調(diào)度到網(wǎng)絡(luò)協(xié)議,唯有華為OceanStor Dorado V3能夠全部覆蓋,并進(jìn)行端到端的優(yōu)化保障,有“勇”有“謀”,保障企業(yè)級(jí)應(yīng)用又快又穩(wěn)。

3D NAND+在線數(shù)據(jù)縮減技術(shù) 激活全閃存市場(chǎng)

按照Gartner公司的預(yù)計(jì),全閃存陣列市場(chǎng)的整體規(guī)模將以年均37%的復(fù)合增長(zhǎng)率持續(xù)拓展,這意味著其將從2014年的14.3億美元增加到2019年的70億美元。也許有用戶會(huì)說,區(qū)區(qū)幾十億美元市場(chǎng),相比存儲(chǔ)市場(chǎng)百億美元規(guī)模不過是九牛一毛,為什么要關(guān)注全閃存市場(chǎng)呢?

如果了解閃存市場(chǎng)就會(huì)知道:較之磁盤,SSD盤(閃存盤)在價(jià)格上還有臺(tái)階級(jí)差別,特別是去年,SSD價(jià)格還有所上升,無論從$/GB成本,還是產(chǎn)能上,SSD目前還沒有本質(zhì)上的突破。但是用戶也應(yīng)該看到,目前SSD制造正處在從2D向3D轉(zhuǎn)型中,產(chǎn)線和技術(shù)投入帶來了市場(chǎng)短期波動(dòng),但從前瞻性出發(fā),未來3D NAND會(huì)大幅度拉低SSD盤$/GB成本,隨著3D NAND產(chǎn)線投產(chǎn)和產(chǎn)品量產(chǎn),SSD在價(jià)格上會(huì)有突破性進(jìn)展。

另外一個(gè)關(guān)鍵是用戶觀念的改變。有關(guān)SSD盤$/GB成本,多是根據(jù)裸容量計(jì)算得出,而忽略了隨著SSD盤性能提升,在線重復(fù)數(shù)據(jù)刪除、數(shù)據(jù)壓縮已經(jīng)成為全閃存系統(tǒng)的標(biāo)準(zhǔn)配置,常規(guī)武器。它意味著同等容量,SSD盤可以處理和存儲(chǔ)數(shù)倍超越磁盤的數(shù)據(jù),以O(shè)ceanStor Dorado V3為例,針對(duì)數(shù)據(jù)庫、VDI、服務(wù)器虛擬化等閃存常用場(chǎng)景,即使使用保守的估計(jì),也能夠提供3:1的數(shù)據(jù)縮減,也就是3倍容量。按照這個(gè)標(biāo)準(zhǔn)計(jì)算,SSD的成本已經(jīng)和HDD持平,全閃存加速發(fā)展的時(shí)代已經(jīng)到來!

在這里額外需要補(bǔ)充的一個(gè)細(xì)節(jié)是:目前,業(yè)內(nèi)廠家提供兩種形態(tài)的全閃存陣列,一種是在既有混合存儲(chǔ)形態(tài)上進(jìn)行封裝,可以稱為改良型全閃存陣列;一種是針對(duì)閃存介質(zhì)進(jìn)行包括在算法、架構(gòu)和設(shè)計(jì)上的全面革新,可以稱為原生型全閃存。前后者的差距在于極致的時(shí)延,以及開啟在線重刪、壓縮等特征后性能還能持續(xù)穩(wěn)定的產(chǎn)品能力。真正有能力完成后者軟硬件設(shè)計(jì)、驗(yàn)證到上市的廠家和產(chǎn)品在業(yè)內(nèi)并不多。華為OceaStor Dorado V3正屬于后者,這是需要認(rèn)真加以關(guān)注和比較的地方。

將閃存應(yīng)用到企業(yè)級(jí)存儲(chǔ)應(yīng)用場(chǎng)景,并不是SSD盤對(duì)于磁盤的簡(jiǎn)單替換,在性能、雙活可靠性、IO調(diào)度、冷熱數(shù)據(jù)分區(qū)、元數(shù)據(jù)緩存機(jī)制、外部網(wǎng)絡(luò)連接、NVMe協(xié)議支持,以及數(shù)據(jù)靜默故障應(yīng)對(duì)等很多技術(shù)細(xì)節(jié)上,都要求全閃存陣列能夠做到盡善盡美。這樣才能夠真正替代傳統(tǒng)磁盤存儲(chǔ),滿足關(guān)鍵業(yè)務(wù)應(yīng)用的需要。

對(duì)此,以華為OceanStor Dorado V3原生型全閃存存儲(chǔ)為參照,能了解相關(guān)的技術(shù)和細(xì)節(jié)。最新更新的OceanStor Dorado5000 V3基于NVMe協(xié)議,新設(shè)計(jì)的硬件架構(gòu)支持雙端口NVMe SSD,以及三盤同時(shí)拔插更換,全新的并行軟件架構(gòu)能充分發(fā)揮NVMe的高性能優(yōu)勢(shì)。

華為全閃存陣列的十八般武藝

之所以選擇全閃存陣列,首先就是性能的因素。從性能指標(biāo)上來說,除了IOPS之外,更重要的是時(shí)延。對(duì)于基于傳統(tǒng)磁盤陣列改良的全閃存陣列(磁盤用SSD替換,控制管理軟件進(jìn)行調(diào)優(yōu)),由于其架構(gòu)還是針對(duì)磁盤設(shè)計(jì),這樣的全閃存陣列極致時(shí)延可以達(dá)到1ms左右,但在業(yè)務(wù)負(fù)載高或者開啟如重刪、壓縮等功能特性時(shí),其時(shí)延會(huì)陡增到3ms,甚至更高。與之相比,華為OceanStor Dorado V3是針對(duì)SSD特質(zhì)而設(shè)計(jì)的全閃存陣列,其時(shí)延可以控制在0.5ms。

影響系統(tǒng)時(shí)延的因素很多,既有SSD盤、系統(tǒng)硬件架構(gòu)設(shè)計(jì)的原因,也有網(wǎng)絡(luò)和IO控制的原因。與很多原生全閃存陣列產(chǎn)品設(shè)計(jì)不同,華為OceanStor Dorado V3采用自己設(shè)計(jì)的SSD盤,具有最底層硬件的設(shè)計(jì)的能力,其中最重要的SSD控制器芯片設(shè)計(jì),它采用Cortex-A9處理器,支持DDR4和18個(gè)NAND Flash通道設(shè)計(jì)。為了控制時(shí)延,F(xiàn)TL(Flash Translation Layer)SSD數(shù)據(jù)讀/寫控制集中檢索和訪問這個(gè)關(guān)鍵節(jié)點(diǎn),華為采用了硬件加速的方式,所有讀取和寫入FTL的操作全部由硬件完成,減少軟件交互次數(shù),從而減小延時(shí),在低負(fù)載場(chǎng)景下,其時(shí)延僅有40μs,比業(yè)界低20%。

華為自研SSD性能數(shù)據(jù)

SSD盤之上,盤控技術(shù),也就是數(shù)據(jù)寫入SSD的控制方式,也會(huì)對(duì)時(shí)延構(gòu)成影響。就SSD盤而言,數(shù)據(jù)是按照一個(gè)一個(gè)的page(頁)寫入到block(塊),為此,首先要通過垃圾回收找到垃圾量高的block,將其中有效數(shù)據(jù)搬移,擦除對(duì)應(yīng)的塊,然后寫入數(shù)據(jù)。對(duì)于盤片來說,相同邏輯位置上的page發(fā)生了新寫,原物理位置的page就會(huì)變?yōu)闊o效的垃圾,各個(gè)page從寫入到變?yōu)闊o效的周期越接近,在一定時(shí)間內(nèi)都變?yōu)槔目赡苄愿摺?/p>

就數(shù)據(jù)而言,其更新頻率差異很大,其中,元數(shù)據(jù)更新非常頻繁,用戶數(shù)據(jù)更新的周期相對(duì)較慢,如果元數(shù)據(jù)和用戶數(shù)據(jù)混合在一起寫入盤上同一個(gè)block,那么元數(shù)據(jù)對(duì)應(yīng)的物理page會(huì)很快失效,但是用戶數(shù)據(jù)對(duì)應(yīng)的物理page仍然有效,最終在垃圾回收時(shí)不得不大量的搬移用戶數(shù)據(jù),導(dǎo)致盤上寫放大過大,影響SSD盤片的壽命和性能。

對(duì)此,OceanStor Dorado V3是通過FlashLink技術(shù)將存儲(chǔ)系統(tǒng)中更新頻繁的元數(shù)據(jù),以及相對(duì)不頻繁的用戶數(shù)據(jù)寫入到不同的擦除塊上,并保證元數(shù)據(jù)和用戶數(shù)據(jù)寫入的擦除塊定期互換實(shí)現(xiàn)磨損均衡。此外,該技術(shù)也針對(duì)冷熱數(shù)據(jù)提供多個(gè)數(shù)據(jù)分區(qū),根據(jù)數(shù)據(jù)冷熱標(biāo)識(shí)將冷熱數(shù)據(jù)分開存放,從而降低SSD垃圾回收的搬移數(shù)據(jù)量,如此,又將系統(tǒng)時(shí)延降低了20%,同時(shí)也將寫放大降低了約40%,從而有效延長(zhǎng)了SSD盤的使用壽命。

繼續(xù)往上,來到系統(tǒng)層面,OceanStor Dorado V3提供了系統(tǒng)IO優(yōu)先級(jí)調(diào)度,根據(jù)應(yīng)用性質(zhì)給予IO優(yōu)先級(jí)別標(biāo)識(shí),比如,主機(jī)讀請(qǐng)求的優(yōu)先級(jí)高于Flash Cache刷盤請(qǐng)求;Flash Cache刷盤寫請(qǐng)求優(yōu)先級(jí)高于異步復(fù)制的后臺(tái)拷貝IO。這些IO優(yōu)先級(jí)隨著讀寫請(qǐng)求一起發(fā)給SSD,SSD控制芯片接收到IO時(shí),根據(jù)IO的優(yōu)先級(jí)標(biāo)識(shí),優(yōu)先處理高優(yōu)先級(jí)IO。如此一來,OceanStor Dorado V3就可以進(jìn)一步針對(duì)應(yīng)用提供性能保障。

就技術(shù)而言,SSD盤可以提供μs級(jí)別的時(shí)延,到全閃存陣列,最好也只是OceanStor Dorado V3的0.5ms。其中因素,除了以上列舉因素之外,存儲(chǔ)網(wǎng)絡(luò)、協(xié)議(如SCSI、NVMe)帶來的時(shí)延都是重要原因,要求進(jìn)行系統(tǒng)級(jí)別的控制。

目前,OceanStor Dorado V3采用了基于華為自主知識(shí)產(chǎn)權(quán)存儲(chǔ)協(xié)議處理芯片的SmartIO卡,一來支持融合組網(wǎng),在10GE或8/16Gb FC組網(wǎng)下只需要更換光模塊部件,無需更換卡件,減少1/3布線和75%接口卡,從而降低客戶初始投資成本。二來,通過硬件級(jí)RDMA(Remote Direct Memory Access,遠(yuǎn)程直接數(shù)據(jù)存?。┲С?,提高系統(tǒng)的整體效率;此外,其內(nèi)嵌QoS流控和TCP擁塞算法技術(shù),在客戶復(fù)雜組網(wǎng)場(chǎng)景下,可提升65%~400%的廣域網(wǎng)性能。如此,這些設(shè)計(jì)都是OceanStor Dorado V3低時(shí)延特性的有力保障。

處理數(shù)據(jù)靜默故障,打造極致可靠性

企業(yè)級(jí)應(yīng)用要求全閃存陣列具有極致性能的同時(shí),對(duì)于系統(tǒng)的可靠性也提出了極高的要求。就全閃存陣列而言,很多廠商將注意力集中在磨損均衡、RAID保護(hù)、雙活和寫懲罰/寫放大的問題上,對(duì)此,OceanStor Dorado V3提供陣列級(jí)別的雙活等解決方案,但他們對(duì)于可靠性的追求并沒有停留在此,而是將目光著眼在數(shù)據(jù)靜默等極致的可靠性追求。

所謂靜默數(shù)據(jù)破壞(Silent Data Corruption)是指數(shù)據(jù)在讀/寫、落盤和傳輸處理過程中,數(shù)據(jù)出現(xiàn)了錯(cuò)誤,但是錯(cuò)誤沒有立即檢測(cè)出來。對(duì)于業(yè)務(wù)來說,靜默數(shù)據(jù)的威脅性甚至超過系統(tǒng)故障,因?yàn)殪o默數(shù)據(jù)難以察覺,危害巨大。靜默數(shù)據(jù)破壞成為一個(gè)全球共識(shí)的問題,因此2003年信息技術(shù)標(biāo)準(zhǔn)國(guó)際委員會(huì)的“T10小組”提出一個(gè)解決方案,即DIF?(Data Integrity Field),數(shù)據(jù)完整性區(qū)域,對(duì)外也叫PI?(Protection Information,數(shù)據(jù)保護(hù)信息)。T10 PI標(biāo)準(zhǔn)是在ANSI T10 SCSI協(xié)議中定義的一種數(shù)據(jù)完整性校驗(yàn)方法,其核心原理是數(shù)據(jù)摘要的思想,在數(shù)據(jù)剛生成的時(shí)候根據(jù)數(shù)據(jù)內(nèi)容計(jì)算出摘要信息,插入DIF字段。在后續(xù)數(shù)據(jù)流過的關(guān)鍵通道上設(shè)置校驗(yàn)點(diǎn),從而知道數(shù)據(jù)發(fā)生了錯(cuò)誤。

但DIF只定義了從IO控制器到存儲(chǔ)之間的鏈路保護(hù),沒有涉及主機(jī)操作系統(tǒng)以及應(yīng)用層的保護(hù)。為此Oracle基于業(yè)務(wù)對(duì)數(shù)據(jù)靜默損壞防護(hù)的需求,將DIF作為Oracle Linux OS和Oracle中的數(shù)據(jù)保護(hù),稱之為DIX(Data Integrity Extensions)。目前,OceanStor Dorado V3提供全路徑數(shù)據(jù)保護(hù)方案,其中包括DIX、陣列級(jí)/硬盤級(jí)/芯片級(jí)DIF,確保數(shù)據(jù)存儲(chǔ)、處理和應(yīng)用的高可靠性,從而為全閃存陣列高可靠性樹立了新的標(biāo)桿。

全路徑數(shù)據(jù)保護(hù)方案

但DIF也不是“包治百病”,如第一次寫對(duì),第二次寫錯(cuò)位置,DIF不一定能檢測(cè)出來,為此,OceanStor Dorado V3提供了父子校驗(yàn)等應(yīng)對(duì)的方案,將數(shù)據(jù)DIF的CRC校驗(yàn)信息在其元數(shù)據(jù)節(jié)點(diǎn)中保存一份,數(shù)據(jù)讀取時(shí)不僅要對(duì)數(shù)據(jù)做DIF校驗(yàn),還要和其元數(shù)據(jù)節(jié)點(diǎn)中的CRC做校驗(yàn),以及分條一致性檢查功能,如此可以有效避免數(shù)據(jù)錯(cuò)誤,及時(shí)識(shí)別并修復(fù)。

小結(jié)

對(duì)于一個(gè)全閃存陣列而言,應(yīng)該說性能、可靠性這些都是基本功。廠商之間的比拼,其實(shí)就是這些細(xì)節(jié)比拼。除了本文所列舉的內(nèi)容之外,還有很多需要關(guān)注的,例如大盤時(shí)代高效的元數(shù)據(jù)緩存機(jī)制、NVMe帶來的挑戰(zhàn)和應(yīng)對(duì)等,這些都需要全閃存陣列能夠有效應(yīng)對(duì),在殘酷的商業(yè)戰(zhàn)爭(zhēng)中,幫助贏得業(yè)務(wù)增長(zhǎng),成就一番宏圖偉業(yè)。

更多的產(chǎn)品信息可以在華為官方網(wǎng)站上獲取有關(guān)OceanStor Dorado V3產(chǎn)品信息:?http://e.huawei.com/topic/dorado-cn/index.html

華為將于2017年9月5-7日在上海舉行全聯(lián)接大會(huì)2017,屆時(shí)將會(huì)對(duì)華為全閃存做進(jìn)一步的解讀,敬請(qǐng)期待!有關(guān)華為全聯(lián)接大會(huì)2017的資訊,請(qǐng)?jiān)L問http://www.huawei.com/cn/events/huaweiconnect2017/?ic_medium=hwdc&ic_source=corp_banner1_hc&source=EEBGHQ179Q20W。

分享到

songjy

相關(guān)推薦