本周二(12月5日),在北京朝陽(yáng)悠唐皇冠假日酒店召開(kāi)的2017中國(guó)存儲(chǔ)峰會(huì)上,張廣彬和曾智強(qiáng)代表企事錄技術(shù)服務(wù)公司發(fā)表了題為《網(wǎng)絡(luò)存儲(chǔ)“相對(duì)論》的演講,分享了最近測(cè)試高性能存儲(chǔ)和網(wǎng)絡(luò)的一些實(shí)踐。以下為演講實(shí)錄。

連續(xù)好幾年在存儲(chǔ)峰會(huì)的技術(shù)論壇上開(kāi)場(chǎng),以前講的都比較概念趨勢(shì)性一些。今天主要講的不是概念,而是我們最近在一些新技術(shù)上的探索和實(shí)踐。這一場(chǎng)將會(huì)由我和我的同事曾智強(qiáng)共同來(lái)完成,我先講前面的這一部分。

我們企事錄服務(wù)公司,主要致力于新技術(shù)、新產(chǎn)品的市場(chǎng)教育,手段通常是分析和測(cè)試。分析方面我和曾智強(qiáng)在幾年前寫過(guò)技術(shù)分析報(bào)告《數(shù)據(jù)中心2013》,率先提出“硬件重構(gòu)+軟件定義”的理念,并據(jù)此展開(kāi)對(duì)前沿技術(shù)的解析,這幾年行業(yè)確實(shí)在向著這個(gè)方向前進(jìn),我們也在這個(gè)方向上去踐行理念,特別是指導(dǎo)我們的測(cè)試工作。這里列出了企事錄與幾家業(yè)內(nèi)知名企業(yè)合作的聯(lián)合實(shí)驗(yàn)室,本次的NVMeoF測(cè)試就主要在和青云合作的混合云實(shí)驗(yàn)室進(jìn)行。

這個(gè)“相對(duì)論”當(dāng)然只是取一下(愛(ài)因斯坦)相對(duì)論字面上的意思,網(wǎng)絡(luò)和存儲(chǔ)一定程度上是相對(duì)的概念,是可以互相替代的。十多年前聽(tīng)華中科技大學(xué)謝長(zhǎng)生教授打過(guò)一個(gè)比喻——信息的傳輸,可以在空間維度,和時(shí)間維度上進(jìn)行:比如烽火臺(tái),把敵人入侵的信號(hào)通過(guò)烽火臺(tái)傳遞到很遠(yuǎn)的地方,這是在空間維度上的傳輸;另外一種在時(shí)間維度上的傳輸,比如刻一個(gè)碑,幾百年甚至幾千年以后,這個(gè)碑沒(méi)有損壞,大家還是可以看到記錄下來(lái)的信息。前者就是網(wǎng)絡(luò),后者就是存儲(chǔ),我覺(jué)得這個(gè)很有啟發(fā)。

兩者結(jié)合起來(lái),就是網(wǎng)絡(luò)存儲(chǔ)?當(dāng)然,我們也可以更抽象的想一想,譬如1968年上映的科幻電影《2001太空漫游》,里面有一個(gè)宇宙高智慧結(jié)晶的代表,就是黑石,有好事者演算過(guò)這個(gè)黑石可以存儲(chǔ)多少數(shù)據(jù),而它還能夠自由移動(dòng),穿越時(shí)空,兼具網(wǎng)絡(luò)和存儲(chǔ)的特性。

十多年前的網(wǎng)絡(luò)存儲(chǔ),跟現(xiàn)在不一樣,專有的存儲(chǔ)硬件架構(gòu),專有的存儲(chǔ)網(wǎng)絡(luò)(Fibre Channel)。但從使用的角度,通過(guò)網(wǎng)絡(luò)去訪問(wèn),其實(shí)跟訪問(wèn)本地的硬盤,看起來(lái)沒(méi)什么區(qū)別?,F(xiàn)在我們講軟件定義存儲(chǔ)(SDS)和超融合(HCI),軟件定義存儲(chǔ)的主流是分布式的,在通用服務(wù)器上,分布到多個(gè)節(jié)點(diǎn)來(lái)運(yùn)行,用服務(wù)器集群來(lái)提供服務(wù)。存儲(chǔ)和計(jì)算分離的場(chǎng)景,兩個(gè)集群之間的網(wǎng)絡(luò)顯然是可見(jiàn)的,使用和部署的時(shí)候可以明顯感受到。而超融合,把計(jì)算和存儲(chǔ)放到了一起,計(jì)算看起來(lái)訪問(wèn)的是本地存儲(chǔ)資源,但實(shí)際上也可能是通過(guò)網(wǎng)絡(luò)跨節(jié)點(diǎn)訪問(wèn),它的網(wǎng)絡(luò)不是很明顯,但實(shí)際上各個(gè)節(jié)點(diǎn)之間,也是通過(guò)網(wǎng)絡(luò)才成為一個(gè)整體。

超融合是這幾年企業(yè)級(jí)市場(chǎng)上很火的一個(gè)概念,我在去年的存儲(chǔ)峰會(huì)上也講過(guò)《超融合架構(gòu)的“逆流”?》(存儲(chǔ)峰會(huì)演講實(shí)錄)。超融合當(dāng)然有很多的優(yōu)點(diǎn),最大的優(yōu)點(diǎn)就是部署簡(jiǎn)單,這對(duì)大型企業(yè),和中小型企業(yè)都是適用的。但是,超融合架構(gòu)更多的適用于中小規(guī)模的部署。具體的例子如微軟的Azure Stack,微軟混合云藍(lán)圖中私有云的部分,與Cisco、華為、聯(lián)想、Dell、HPE的服務(wù)器硬件,整合成軟硬件一體的解決方案交付。一個(gè)集群最少4個(gè)節(jié)點(diǎn),最多可以達(dá)到12個(gè)節(jié)點(diǎn),下一步16個(gè)節(jié)點(diǎn),這是典型的超融合部署。

超融合部署的另外一個(gè)優(yōu)勢(shì)是,利用計(jì)算和存儲(chǔ)一體的特點(diǎn),可以把計(jì)算節(jié)點(diǎn)經(jīng)常訪問(wèn)的數(shù)據(jù),就近放在所在的節(jié)點(diǎn)本地,盡量避免跨網(wǎng)絡(luò)訪問(wèn)。這在網(wǎng)絡(luò)狀況不太好的時(shí)候,有很好的效果。如圖所示,超融合市場(chǎng)的開(kāi)創(chuàng)者Nutanix就提供這個(gè)功能。

公有云上也有類似的例子,譬如阿里云的第一代塊存儲(chǔ)是2010年做的,當(dāng)時(shí)阿里云尚處于起步階段,用的網(wǎng)絡(luò)還是千兆以太網(wǎng),就利用超融合的部署方式,來(lái)降低網(wǎng)絡(luò)性能的不利影響。

我們后面也會(huì)提到,現(xiàn)在高速的存儲(chǔ),譬如NVMe和3D XPoint這種低延遲存儲(chǔ)的出現(xiàn),存儲(chǔ)性能大幅提升以后,網(wǎng)絡(luò)性能如果跟不上來(lái)的話,可以用類似的數(shù)據(jù)本地化的方法,譬如微軟的S2D(Storage Spaces Direct),或者VMware vSAN,都有計(jì)劃加入數(shù)據(jù)本地化的功能。

剛才說(shuō)到阿里云,實(shí)際上超融合架構(gòu)在大型云計(jì)算環(huán)境下的一個(gè)問(wèn)題,就是計(jì)算和存儲(chǔ)資源緊耦合的方式不夠靈活。譬如阿里云上線了一個(gè)集群,可能計(jì)算資源很快賣空了,但存儲(chǔ)資源還剩很多,那這就是很不經(jīng)濟(jì)的一種做法。所以阿里云從第二代塊存儲(chǔ)技術(shù)開(kāi)始,就采用了計(jì)算和存儲(chǔ)分離的方式,包括到現(xiàn)在的第三代也是采用分離部署的方式。

另一個(gè)例子是AWS的EBS。EBS主要為EC2計(jì)算實(shí)例服務(wù),AWS有很多類型的EC2實(shí)例,C開(kāi)頭的是計(jì)算優(yōu)化的實(shí)例,前不久推出了最新一代的C5實(shí)例。AWS起步比較早,其虛擬化采用的是Xen,但是最新的一代C5轉(zhuǎn)向了KVM。上周的re:Invent 2017大會(huì)上,AWS為了介紹C5,把以前幾代實(shí)例的計(jì)算和存儲(chǔ)架構(gòu)都大致回顧了一下。

這張是C3實(shí)例的架構(gòu)圖,左邊是硬件架構(gòu),右邊是軟件架構(gòu),畫出了對(duì)應(yīng)的映射關(guān)系。很多IaaS公有云的實(shí)例都有本地存儲(chǔ)的選項(xiàng),本地存儲(chǔ)的問(wèn)題在于,其就在實(shí)例(通常是VM)所在的物理主機(jī)上,如果云主機(jī)重啟或遷移,本地存儲(chǔ)的數(shù)據(jù)就會(huì)丟失。所以本地存儲(chǔ)雖然快,但并不被視為持久化存儲(chǔ)。持久化的塊存儲(chǔ),于AWS就是EBS(Elastic Block Storage,彈性塊存儲(chǔ)),黃色的虛線框里就是EBS,是一個(gè)共享的存儲(chǔ),通過(guò)網(wǎng)絡(luò)訪問(wèn)。從圖上的架構(gòu)可以看到,存儲(chǔ)和網(wǎng)絡(luò)一樣,通過(guò)網(wǎng)絡(luò)來(lái)訪問(wèn)。這就可以看到C3實(shí)例在存儲(chǔ)架構(gòu)上的問(wèn)題:存儲(chǔ)的流量和網(wǎng)絡(luò)的流量,沒(méi)有有效的區(qū)隔,所以存儲(chǔ)的性能可能無(wú)法保證。

從2013年底到2015年初,過(guò)了一年多,AWS升級(jí)到了C4實(shí)例。黃色虛線框里還是EBS,注意存儲(chǔ)的訪問(wèn)路徑,已經(jīng)和網(wǎng)絡(luò)區(qū)隔開(kāi)了,所以C4實(shí)例的EBS存儲(chǔ),性能和QoS有保證。這也說(shuō)明了網(wǎng)絡(luò)和存儲(chǔ)的一些聯(lián)系:有時(shí)候存儲(chǔ)的變化,實(shí)際上是網(wǎng)絡(luò)的變化。

這是我畫的一個(gè)圖,橫軸是時(shí)間線,縱軸是SSD或HDD(硬盤)的大致數(shù)量。可以看到這是一個(gè)發(fā)展的曲線,左下角的是已經(jīng)發(fā)生的事情。我們?cè)瓉?lái)為什么會(huì)有磁盤陣列?因?yàn)橛脖P性能太差了,所以要把很多硬盤堆在一起,形成磁盤陣列提供更高的性能(有時(shí)是更大的容量)。隨著SSD的逐漸發(fā)展,剛開(kāi)始用SSD給硬盤當(dāng)緩存,使用服務(wù)器內(nèi)置存儲(chǔ),SSD加HDD組成緩存或分層的方案,還可以是純SSD(全閃存),就可以滿足應(yīng)用的需求。

由于SSD的加入提高了存儲(chǔ)的性能,服務(wù)器本地的存儲(chǔ)就能滿足所承載應(yīng)用的存儲(chǔ)性能需求,所以我們可以做成超融合的方案。這個(gè)黃色的圓圈的意思是,前幾年到未來(lái)幾年的這個(gè)時(shí)間區(qū)域內(nèi),服務(wù)器內(nèi)置存儲(chǔ)可以用超融合的方案,一個(gè)服務(wù)器有10幾20幾個(gè)硬盤或SSD(SSD+HDD或者全閃)。

但是,隨著NVMe SSD逐漸普及,以及服務(wù)器本身能支持的SSD數(shù)量進(jìn)一步增加,可能又會(huì)往另外一個(gè)方向變化:一臺(tái)服務(wù)器裝滿了SSD以后,本地的計(jì)算能力(運(yùn)行的應(yīng)用負(fù)載)已經(jīng)不能完全發(fā)揮SSD的全部性能,所以又要把SSD放到單獨(dú)設(shè)備里面,把存儲(chǔ)獨(dú)立出來(lái),供很多主機(jī)訪問(wèn),還有更高的靈活性。所以往右上角發(fā)展,比如說(shuō)幾百片閃存放在一起,甚至將來(lái)有可能會(huì)上千個(gè)閃存放在一起。就像這張NVMe over Fabrics(NVMeoF)規(guī)劃的遠(yuǎn)景,將來(lái)可以支持千個(gè)級(jí)別的SSD。NVMe over Fabrics現(xiàn)在已經(jīng)走向了一些原型階段,或者是有一些產(chǎn)品出來(lái)了。

NVMe over Fabrics要解決的是,計(jì)算和存儲(chǔ)分離了以后,距離沒(méi)有產(chǎn)生美,帶來(lái)的卻是帶寬和延遲上的挑戰(zhàn)。怎么解決這個(gè)挑戰(zhàn),接下來(lái)的這一部分,有請(qǐng)我們企事錄負(fù)責(zé)測(cè)試的合伙人曾智強(qiáng)來(lái)講一講這方面的情況。

大家好,我是曾智強(qiáng),我在企事錄主要負(fù)責(zé)(新)技術(shù)、產(chǎn)品及解決方案的評(píng)估和驗(yàn)證。閃存的出現(xiàn),確實(shí)加大了對(duì)存儲(chǔ)網(wǎng)絡(luò)的挑戰(zhàn)。業(yè)內(nèi)已經(jīng)開(kāi)始著手解決網(wǎng)絡(luò)的問(wèn)題,比如NVMe over Fabrics,我們也對(duì)NVMeoF做了一些探索和嘗試,取得一些成果,今天就給大家分享一下企事錄在NVMe over Fabrics方面獲得的一些實(shí)踐經(jīng)驗(yàn)。

說(shuō)到NVMe over Fabrics,這是NVMe over Fabrics的一個(gè)總體架構(gòu)示意圖。NVMe實(shí)際上一個(gè)寄存器級(jí)的邏輯接口,專為SSD等非易失性存儲(chǔ)開(kāi)發(fā),數(shù)據(jù)傳輸通常在PCIe之上。所以在NVMe over Fabrics 1.0規(guī)范里面,把NVMe SSD比作是NVMe over PCIe,既然是over在PCIe上面,那是不是也可以over在其他的網(wǎng)絡(luò)上?比如說(shuō)企業(yè)數(shù)據(jù)中心最常用的Fibre Channel(FC),或者更常見(jiàn)的以太網(wǎng),乃至其他更高速的網(wǎng)絡(luò)上?比如InfiniBand(IB)。InfiniBand和新一代以太網(wǎng)有一個(gè)非常好的功能即RDMA(Remote Direct Memory Access,遠(yuǎn)程直接內(nèi)存訪問(wèn)),可以有效降低軟件層導(dǎo)致的延遲。InfiniBand的帶寬一向很高(40Gbps以上),現(xiàn)在以太網(wǎng)的帶寬也很高,比如新一代的25GbE,以及100GbE,而且也支持RDMA功能,比如RoCE(RDMA over Converged Ethernet)或iWARP(internet Wide Area RDMA Protocol)。這不僅能顯著降低延遲,也有助于提升帶寬。

中間紅色部分,就是支持RDMA的軟件堆棧,包括InfiniBand和以太網(wǎng),最右邊粉色部分,實(shí)際上就是Fibre Channel。NVMe over PCIe或者NVMe SSD上的訪問(wèn)規(guī)則是由NVMe規(guī)范來(lái)定義的。

NVMeoF實(shí)際是基于NVMe 1.2規(guī)范,對(duì)協(xié)議層進(jìn)行了擴(kuò)展。這張圖就是NVMeoF的架構(gòu),可以看到,其實(shí)是在NVMe協(xié)議中的NVMe Transport進(jìn)行了擴(kuò)展,用以支持InfiniBand和以太網(wǎng),以及Fibre Channel等等。

從規(guī)范來(lái)看,NVMe over Fabrics實(shí)際上有兩種模式,第一個(gè)是Memory模式,所有的NVMe SSD就是使用這種模式;另外就是Message模式,通過(guò)對(duì)NVMe命令進(jìn)行再次封裝,以此實(shí)現(xiàn)在其他網(wǎng)絡(luò)上傳輸,如果在Fibre Channel上傳輸?shù)脑捑褪褂胢essage模式。此外,比較例外的就是RDMA上,支持RDMA功能實(shí)際上有InfiniBand和以太網(wǎng),而以太網(wǎng)又有RoCE和iWARP兩種。NVMe over Fabrics都是支持的,并且memory模式和message都能用在RDMA上。

從邏輯架構(gòu)上看的話,NVMe over PCIe和NVMe over RDMA上,在軟件開(kāi)銷上的增加很小,可以近似的認(rèn)為跨網(wǎng)絡(luò)訪問(wèn)和本地訪問(wèn)的延遲幾乎是一樣的。所以如果用RDMA的話,雖然經(jīng)過(guò)了網(wǎng)絡(luò),但其延遲可以非常接近于本地的水平。為了驗(yàn)證NVMe over Fabrics,我們?cè)谄笫落浐颓嘣坡?lián)合的混合云實(shí)驗(yàn)室里設(shè)計(jì)了一個(gè)測(cè)試方案。

圖上就是測(cè)試部署的架構(gòu),圍繞數(shù)據(jù)庫(kù)應(yīng)用構(gòu)建的一個(gè)典型應(yīng)用場(chǎng)景。之所以選擇數(shù)據(jù)庫(kù)應(yīng)用,是因?yàn)閿?shù)據(jù)庫(kù)對(duì)延遲的要求比較高,而Oracle數(shù)據(jù)庫(kù)也可以被認(rèn)為是最關(guān)鍵的企業(yè)應(yīng)用之一。最上面的是Oracle數(shù)據(jù)庫(kù)服務(wù)器,配備的Intel雙路Xeon Platinum 8180處理器,是Intel新一代(SkyLake)處理器中最頂配的型號(hào),配置了256GB內(nèi)存。這臺(tái)服務(wù)器上一共插了3張網(wǎng)卡,其中一張是Mellanox的CX5網(wǎng)卡,這是一張100Gb/s的網(wǎng)卡;另外兩張則是Mellanox的CX3網(wǎng)卡,是10Gb/s的。這三張網(wǎng)卡都支持RDMA功能,也就是RoCE。

Oracle數(shù)據(jù)庫(kù)服務(wù)器通過(guò)兩臺(tái)交換機(jī)與最下面的存儲(chǔ)服務(wù)器相連。右邊這臺(tái)就是100Gb/s交換機(jī),是Mellanox提供的SN2100;左邊是Mellanox SX1024交換機(jī),是10Gb/s交換機(jī)。最下面的是存儲(chǔ)服務(wù)器,采用Intel雙路Xeon Gold 6154處理器,這是一款高主頻的處理器,適合驅(qū)動(dòng)高性能的NVMe SSD,作為存儲(chǔ)服務(wù)器,也配置了256GB內(nèi)存。與Oracle數(shù)據(jù)庫(kù)服務(wù)器一樣,也有一張100Gb/s和兩張10Gb/s的Mellanox網(wǎng)卡。在存儲(chǔ)方面,使用了4個(gè)U.2接口的Intel DC P4500SSD,每片SSD的容量是2TB。同時(shí)還使用了1片750GB的Intel DC P4800X,這就是傳說(shuō)中的Optane,采用3D XPoint技術(shù),一種全新介質(zhì)的SSD。

這里要特別感謝一下海天起點(diǎn)公司提供的技術(shù)支持。海天起點(diǎn)是一家專注于提供數(shù)據(jù)庫(kù)服務(wù)的公司,在Oracle數(shù)據(jù)庫(kù)的運(yùn)維、優(yōu)化和排錯(cuò)方面有著非常豐富的經(jīng)驗(yàn)。之前講過(guò),我們這個(gè)測(cè)試是以O(shè)racle數(shù)據(jù)庫(kù)應(yīng)用來(lái)構(gòu)建的,之所以與海天起點(diǎn)合作,也是需要借助他們的經(jīng)驗(yàn)來(lái)驗(yàn)證Oracle數(shù)據(jù)庫(kù)在NVMeoF下的性能表現(xiàn)。同時(shí),他們也非常關(guān)注NVMeoF,也希望跟我們一起探索,所以我們一拍即合,做了這個(gè)測(cè)試。

下面我們來(lái)看一下測(cè)試方面的情況。這張圖展示了在不同接口的大致帶寬,比如SATA、10GbE、25GbE、NVMe以及100GbE,我們看到,其帶寬基本是以倍數(shù)增長(zhǎng)的。其中有一項(xiàng)是主流NVMe SSD的帶寬,采用PCIe x4通道,實(shí)際能達(dá)到的帶寬大約在3.2GB/s左右。而100GbE的帶寬大約在10GB/s左右,差不多是3片NVMe SSD相加的帶寬,所以在這個(gè)測(cè)試?yán)锩?,我們使用?片NVMe SSD,以確保存儲(chǔ)總帶寬超過(guò)網(wǎng)絡(luò),如下表。

這個(gè)表是Intel DC P4500 SSD的性能參數(shù),單片SSD大約能提供51.5萬(wàn)IOPS,這是一個(gè)穩(wěn)定狀態(tài)下的值。而我們拿到的是全新的SSD,所以在測(cè)試的時(shí)候,有一定的誤差,單片SSD的隨機(jī)讀性能大約是54萬(wàn)IOPS,兩片P4500的性能大約在100萬(wàn)左右,4片則在185萬(wàn)左右。單片P4500的帶寬在3.2GB/s,隨著SSD數(shù)量的增加,其帶寬基本是線性增長(zhǎng)的。

下面我們來(lái)看一下在實(shí)際測(cè)試中的情況。在10GbE iSCSI情況下,其隨機(jī)讀寫的性能大約是6萬(wàn)IOPS和5萬(wàn)IOPS。需要注意的是,我們這兒采用的測(cè)試是Oracle數(shù)據(jù)庫(kù)典型的8KB數(shù)據(jù)塊。然后開(kāi)啟RDMA,也就是使用NVMeoF之后,10GbE的隨機(jī)讀寫性能幾乎能夠翻倍,超過(guò)了13.5萬(wàn)IOPS。從圖上可以看到,隨機(jī)寫與隨機(jī)讀的性能差不多,與我們的常識(shí)相?!贜AND Flash的SSD,寫性能是要弱于讀性能的。這是因?yàn)?0GbE的帶寬已經(jīng)是瓶頸了,連1片P4500的性能極限都達(dá)不到,所以讀寫性能相差無(wú)幾。

最后則是100GbE NVMeoF下的性能,隨機(jī)讀寫性能為120萬(wàn)和60萬(wàn)IOPS,分別是10GbE iSCSI下的20倍和12倍??梢?jiàn)100GbE的優(yōu)勢(shì)非常明顯,能夠有效地提升NVMe SSD的性能表現(xiàn)。

接下來(lái)是在帶寬方面的性能表現(xiàn),我們使用的是64KB數(shù)據(jù)塊進(jìn)行順序讀寫。在10GbE iSCSI情況下,其帶寬約為1.2GB/s,在NVMeoF下,其帶寬差不多,都在1.2GB/s左右,10GbE的帶寬已經(jīng)成為瓶頸。而在100GbE的NVMeoF下,其順序讀帶寬提升了將近10倍,達(dá)到了11GB/s;寫帶寬也提升了5倍,接近6GB/s,差不多已經(jīng)接近4片P4500 SSD的極限性能。

100GbE能夠有效的發(fā)揮NVMe SSD的IOPS和帶寬,那么在延遲方面呢?下面我們進(jìn)行了另外一個(gè)測(cè)試。先看一眼各種存儲(chǔ)介質(zhì)的延遲表現(xiàn):DRAM最小,在納秒(ns)級(jí)別;然后是SCM(存儲(chǔ)級(jí)內(nèi)存),延遲增加了一個(gè)數(shù)量級(jí);接著是SSD,延遲在微秒(μs)級(jí)別,相比DRAM又增加了三個(gè)數(shù)量級(jí);最后是HDD,延遲在毫秒(ms)級(jí)別,相比SSD,延遲又增加了3個(gè)數(shù)量級(jí)。這些存儲(chǔ)介質(zhì)的延遲差距都是指數(shù)級(jí)的。

在延遲方面的測(cè)試,我們使用了Intel DC P4800X SSD。這種采用3D XPoint技術(shù)、俗稱Optane的SSD,最引人注目的就是延遲極低,Intel官方公布的延遲指標(biāo)在10微秒左右,我們?cè)贜VMeoF測(cè)得其讀寫延遲分別為34微秒和35微秒,相比官方數(shù)據(jù),有一定的增加,但還是在同一個(gè)數(shù)量級(jí),NVMeoF的延遲表現(xiàn)確實(shí)非常優(yōu)秀。

然后是P4500的延遲,這個(gè)是在本地測(cè)的,讀寫延遲分別為101微秒和31微秒。這也可以看出RDMA的延遲非常低,即使是跨網(wǎng)絡(luò)了,其延遲仍與本地SSD的延遲相差不多??赡苡腥俗⒁獾搅?,不是說(shuō)SSD的寫性能不如讀性能嗎?為什么你這上面P4500的寫延遲比讀延遲還低不少,甚至也低于P4800X呢?

這里需要說(shuō)明,Intel DC P4500 SSD有獨(dú)立供閃存控制器使用的DRAM,作為寫緩存,以加速SSD的寫操作,所以寫延遲比讀延遲還要低。為了保證DRAM里面的數(shù)據(jù)在突發(fā)掉電情況下也能寫入到NAND閃存里,所以P4500里面還有兩顆電容,來(lái)防止數(shù)據(jù)丟失。而Optane的寫入特性很高,數(shù)據(jù)直接“落盤”的性能不遜于讀取時(shí),自然也就不需要DRAM及電容保護(hù)。

這張圖則是在企事錄測(cè)試架構(gòu)下P4500的延遲表現(xiàn),可以看到,由于加了32隊(duì)列深度,在10GbE iSCSI模式下,延遲就比較高了,讀寫延遲分別為9毫秒和10毫秒。但在使用NVMeoF之后,即使是10GbE,其延遲也一下降到了3.7毫秒。仍然受限于10GbE的帶寬瓶頸,所以其讀寫延遲相差無(wú)幾。而在100GbE的NVMeoF情況下,延遲又降回到了微秒級(jí)別,比10GbE iSCSI模式低了一個(gè)數(shù)量級(jí)。

由于時(shí)間關(guān)系,企事錄實(shí)驗(yàn)室的這個(gè)測(cè)試其實(shí)還沒(méi)有做完,因?yàn)槲覀冏罱K的目標(biāo)是要評(píng)估NVMeoF在Oracle數(shù)據(jù)庫(kù)應(yīng)用場(chǎng)景下的性能表現(xiàn),但我們的測(cè)試正在進(jìn)行中,還沒(méi)有獲得進(jìn)一步的結(jié)果,所以我們今天的分享就到此為止。但是,即使是這樣,我們也看到NVMeoF的潛力巨大,確實(shí)能夠較為充分的利用NVMe SSD的高性能,讓跨網(wǎng)絡(luò)的存儲(chǔ)訪問(wèn)獲得與訪問(wèn)本地存儲(chǔ)相近的性能。我們相信隨著NVMeoF技術(shù)不斷發(fā)展成熟,這肯定是未來(lái)的方向。

分享到

崔歡歡

相關(guān)推薦