ZETTAKIT(澤塔云)技術(shù)副總裁(創(chuàng)始合伙人)黃揚(yáng)。

黃揚(yáng):大家好,我是來(lái)自ZETTAKIT的黃揚(yáng),我是公司合伙人之一。

我本人是研發(fā)出身,參與了公司產(chǎn)品的前期研發(fā)工作。公司經(jīng)過(guò)快速發(fā)展,產(chǎn)品在各行業(yè)有了很多實(shí)際應(yīng)用案例,公司現(xiàn)在有很多的牛人,寫(xiě)代碼就沒(méi)我啥事了。我就深入用戶那里,去了解項(xiàng)目,解決項(xiàng)目中遇到的實(shí)際問(wèn)題,然后把這些實(shí)際問(wèn)題反饋到我們架構(gòu)設(shè)計(jì)當(dāng)中去,不斷改進(jìn)我們的產(chǎn)品。

存儲(chǔ)這一塊,我們首先追求穩(wěn)定,雖然有很多創(chuàng)新,但是架構(gòu)方面其實(shí)可能沒(méi)有太多可說(shuō)的,我們有同事在其他分論壇介紹公司的存儲(chǔ)產(chǎn)品,我在這里跟大家分享軟件力量在超融合架構(gòu)里面的決定性作用,從另外一個(gè)側(cè)面說(shuō)說(shuō)我們?cè)趺从密浖牧α渴沟贸诤霞軜?gòu)更好更強(qiáng)。

今天,我跟大家分享的技術(shù)話題是《企業(yè)級(jí)SDN助力超融合架構(gòu)》。

首先簡(jiǎn)單介紹一下我們公司,我們公司成立于2014年,還是個(gè)年輕的公司,但是發(fā)展特別快。ZETTAKIT是我們注冊(cè)商標(biāo)同時(shí)也是我們產(chǎn)品名,我們也有自己的ZETTAKIT一體機(jī)。寓意是能夠處理ZETTA數(shù)量級(jí)的軟件,澤塔是中文名。
公司致力于超融合云計(jì)算,軟件定義數(shù)據(jù)中心相關(guān)領(lǐng)域的研究和產(chǎn)品開(kāi)發(fā)。成立兩年多,我們的超融合云計(jì)算產(chǎn)品已經(jīng)在金融、證券、政府、企業(yè)和高等院校有很多用戶。

下面我來(lái)分享一下我們公司在超融合架構(gòu)上的認(rèn)識(shí),尤其是軟件力量在云計(jì)算領(lǐng)域的重要作用。

傳統(tǒng)硬件定義架構(gòu)功能固定,不能靈活設(shè)定存儲(chǔ)策略;并且不具有水平擴(kuò)展能力,滿足不了云計(jì)算數(shù)據(jù)中心規(guī)模自由伸縮的要求。

超融合架構(gòu)讓計(jì)算與存儲(chǔ)功能充分融合,以軟件的力量實(shí)現(xiàn)數(shù)據(jù)中心的自由伸縮,水平擴(kuò)展。

那么超融合架構(gòu)下網(wǎng)絡(luò)應(yīng)該是什么樣?

計(jì)算與存儲(chǔ)已經(jīng)融合,軟件發(fā)揮了決定性的力量。

我們應(yīng)該更進(jìn)一步,做到計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)的全面融合,發(fā)揮軟件的力量,使得網(wǎng)絡(luò)隨計(jì)算和數(shù)據(jù)而動(dòng)。

傳統(tǒng)網(wǎng)絡(luò)架構(gòu)的弊端在超融合架構(gòu)中顯現(xiàn)的尤為明顯,不支持動(dòng)態(tài)按需調(diào)配,導(dǎo)致資源無(wú)法被高效自動(dòng)化供給,影響了整個(gè)云計(jì)算架構(gòu)的快速部署、靈活調(diào)配。同時(shí),在超融合架構(gòu)當(dāng)中實(shí)際去實(shí)施的過(guò)程當(dāng)中有一個(gè)落地的問(wèn)題,就是有一個(gè)傳統(tǒng)數(shù)據(jù)中心向超融合云計(jì)算數(shù)據(jù)中心平滑演進(jìn)的問(wèn)題,但我們知道,傳統(tǒng)網(wǎng)絡(luò)架構(gòu)的弊端在這種情況下顯現(xiàn)的尤為明顯。

所以我們可以很容易的想到超融合架構(gòu)下的網(wǎng)絡(luò)就應(yīng)該有三大特征:軟件定義架構(gòu),功能融合和快速部署、靈活調(diào)配。用一句簡(jiǎn)單話說(shuō)超融合架構(gòu)網(wǎng)絡(luò)就需要SDN就需要軟件定義網(wǎng)絡(luò)。

我們?cè)賮?lái)看看細(xì)節(jié)。

在超融合架構(gòu)中,網(wǎng)絡(luò)將分散的計(jì)算和存儲(chǔ)資源單元連結(jié)起來(lái),構(gòu)成計(jì)算資源池,存儲(chǔ)資源池。

超融合架構(gòu)有計(jì)算、存儲(chǔ)、管理三張網(wǎng)絡(luò)。其中存儲(chǔ)網(wǎng)絡(luò)是相比傳統(tǒng)硬件定義架構(gòu)增加的,或者說(shuō)取代FC、sas等專用存儲(chǔ)交換網(wǎng)絡(luò)。這要求大帶寬,低延遲。

雖然超融合存儲(chǔ)可以通過(guò)調(diào)整副本分布策略減少網(wǎng)絡(luò)壓力,但網(wǎng)絡(luò)資源仍然是瓶頸,尤其是大規(guī)模下或者對(duì)存儲(chǔ)性能要求高時(shí),比如金融行業(yè)中的高頻交易系統(tǒng)應(yīng)用場(chǎng)景下。

11

看這幾個(gè)概念圖,這個(gè)是邏輯上的三張網(wǎng)絡(luò)劃分,物理網(wǎng)絡(luò)同樣可以這么部署,但每個(gè)網(wǎng)的資源有限,導(dǎo)致性能受限。資源的共享程度越高,系統(tǒng)的資源利用率就越高,那么運(yùn)行成本就越低或者性能就更好。

所以理想是這樣的,將網(wǎng)絡(luò)鏈路聚合起來(lái),被三張網(wǎng)絡(luò)共享使用。當(dāng)然共享就有資源爭(zhēng)用問(wèn)題需要解決。這對(duì)網(wǎng)絡(luò)資源的控制能力提出了更高要求。

大規(guī)模下,還有更多的資源瓶頸。

總結(jié)一下,超融合架構(gòu)需要SDN,但也對(duì)SDN提出了一些新的要求。

軟件定義架構(gòu),功能融合,快速部署、靈活調(diào)配,這三個(gè)是基本要求。

還有這些新要求:

第一個(gè),低延遲很重要,這決定了性能擴(kuò)展能力的上限。

第二個(gè)是自由伸縮,超融合架構(gòu)的必備技能。這里包括構(gòu)建的邊際成本低,網(wǎng)絡(luò)的控制平面和數(shù)據(jù)平面都要具有自由伸縮的能力。

第三個(gè)是易操作,這個(gè)是指整個(gè)系統(tǒng)操作簡(jiǎn)單,運(yùn)維也簡(jiǎn)單。操作簡(jiǎn)單是指讓用戶容易掌握云計(jì)算系統(tǒng)的使用;隨著數(shù)據(jù)中心規(guī)模的擴(kuò)展,網(wǎng)絡(luò)系統(tǒng)的復(fù)雜性提高,對(duì)于運(yùn)維人員來(lái)說(shuō),任何故障都是難以捕捉的,運(yùn)維簡(jiǎn)單要求網(wǎng)絡(luò)的可視化和方便的故障檢測(cè)機(jī)制。

第四個(gè)是資源占用低,顯然功能融合下,網(wǎng)絡(luò)、存儲(chǔ)都會(huì)占用計(jì)算資源,這要求這部分資源占用盡可能低,將更多的CPU、內(nèi)存資源留給計(jì)算。其實(shí)也是x86體系性能進(jìn)步快才讓超融合架構(gòu)成為可能。否則計(jì)算都不夠,就不可能融合存儲(chǔ)和網(wǎng)絡(luò)了。資源占用低永遠(yuǎn)是超融合架構(gòu)應(yīng)該追求的。

下面我來(lái)說(shuō)說(shuō)我們SDN在架構(gòu)設(shè)計(jì)上怎么考慮這些新要求的。

我們的SDN產(chǎn)品是ZETTAKIT超融合云計(jì)算系統(tǒng)的一個(gè)組成部分。

我們的SDN設(shè)計(jì)的指導(dǎo)思想讓軟件發(fā)揮決定力量,不僅是計(jì)算網(wǎng)絡(luò),也將管理網(wǎng)絡(luò)和存儲(chǔ)網(wǎng)絡(luò)納入軟件管理。

超融合架構(gòu)首先讓數(shù)據(jù)隨計(jì)算流動(dòng),我們想進(jìn)一步通過(guò)軟件的力量,讓網(wǎng)絡(luò)隨計(jì)算和數(shù)據(jù)而動(dòng)。
12

眾所周知,SDN有三大核心特征:一是數(shù)據(jù)平面與控制平面分離,二是集中控制,三是通過(guò)良好設(shè)計(jì)的編程接口控制網(wǎng)絡(luò)行為。

我們?cè)赟DN架構(gòu)設(shè)計(jì)上,將這三個(gè)核心特征進(jìn)一步擴(kuò)展,以適應(yīng)超融合架構(gòu)的新要求:

首先,在全系統(tǒng)的各個(gè)網(wǎng)絡(luò)資源單元都實(shí)現(xiàn)了數(shù)據(jù)平面和控制平面的分離,讓控制信息和狀態(tài)信息更獨(dú)立也更集中,盡力避免“自學(xué)習(xí)”型的數(shù)據(jù)交互方式(比如ARP這樣的協(xié)議),這樣讓網(wǎng)絡(luò)資源響應(yīng)更快,控制粒度更細(xì),也能減少因狀態(tài)不一致引起的故障。

其次,實(shí)現(xiàn)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源的統(tǒng)一管控,也就是圖中的ZETTAKIT云計(jì)算管理平臺(tái),這是更大范圍的集中控制。

最后,計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源全由軟件定義。這樣一來(lái),在云計(jì)算管理平臺(tái),所有資源池化了,用戶控制的是各種邏輯資源對(duì)象,比如虛擬機(jī),虛擬磁盤(pán),虛擬路由器,IP資源,帶寬資源等??梢哉f(shuō)這是一種對(duì)象化和實(shí)體化的編程接口,是對(duì)現(xiàn)實(shí)世界中各種IT資源實(shí)體的簡(jiǎn)化和增強(qiáng),用戶容易理解,只需關(guān)心業(yè)務(wù)層面的事情??梢哉f(shuō)是應(yīng)用驅(qū)動(dòng)的SDN,這是易操作的基礎(chǔ)。

除上述三大特征之外,我們的SDN架構(gòu)還考慮了自由伸縮和功能融合兩方面的要求:

1. 自由伸縮:控制平面和數(shù)據(jù)平面都具有比較強(qiáng)的伸縮性。雖然控制邏輯上是集中的,但物理上也集中必然導(dǎo)致擴(kuò)展性不佳。我們?cè)O(shè)計(jì)上采用了分層的架構(gòu),狀態(tài)數(shù)據(jù)庫(kù)保存上層網(wǎng)絡(luò)描述,是抽象的數(shù)據(jù)模型。每個(gè)控制器都獨(dú)立運(yùn)行,將此抽象數(shù)據(jù)模型轉(zhuǎn)化為底層的控制描述。控制器也進(jìn)一步分工,網(wǎng)絡(luò)節(jié)點(diǎn)和計(jì)算節(jié)點(diǎn)上采用分布式控制器架構(gòu),單獨(dú)的控制器集群對(duì)物理交換機(jī)網(wǎng)絡(luò)進(jìn)行控制。服務(wù)器是葉子節(jié)點(diǎn),物理交換機(jī)網(wǎng)絡(luò)是中間節(jié)點(diǎn),葉子節(jié)點(diǎn)上的控制器邏輯很簡(jiǎn)單,只需要保證配置的最終一致性,不需處理環(huán)路、保序等復(fù)雜問(wèn)題??刂莆锢斫粨Q機(jī)網(wǎng)絡(luò)的SDN控制集群相對(duì)復(fù)雜,但因?yàn)楸豢刂频膶?duì)象(物理交換機(jī))的對(duì)象相比服務(wù)器有數(shù)量級(jí)的減少,容易實(shí)現(xiàn)精細(xì)的控制。這樣控制平面交互信息少。

同時(shí),自由伸縮的另一面”高可用”上,也符合超融合架構(gòu)的特點(diǎn):控制器故障只會(huì)影響本節(jié)點(diǎn),其他節(jié)點(diǎn)正常運(yùn)行不受影響。

2. 功能融合:每個(gè)節(jié)點(diǎn)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)功能融合。不管從控制平面,還是數(shù)據(jù)平面來(lái)說(shuō)都是如此。

13數(shù)據(jù)平面架構(gòu)。

接下來(lái)說(shuō)說(shuō)我們?cè)跀?shù)據(jù)平面的設(shè)計(jì),這方面主要的考量是降低延遲減少計(jì)算節(jié)點(diǎn)上的資源占用。

這里也來(lái)源于我們項(xiàng)目實(shí)際需求,現(xiàn)在有很多用戶其實(shí)是一個(gè)傳統(tǒng)硬件定義架構(gòu),他們的數(shù)據(jù)中心是傳統(tǒng)型的,但是他想往超融合架構(gòu)遷移。所以在數(shù)據(jù)平面架構(gòu)當(dāng)中去考慮這一點(diǎn),我們采用了疊加網(wǎng)絡(luò)方案,也就說(shuō)我們會(huì)用隧道封裝的辦法,把業(yè)務(wù)流量封裝起來(lái)。

這種方案對(duì)“現(xiàn)網(wǎng)影響很小”,它屏蔽物理設(shè)備差異,與現(xiàn)有網(wǎng)絡(luò)標(biāo)準(zhǔn)兼容,能實(shí)現(xiàn)傳統(tǒng)數(shù)據(jù)中心向云計(jì)算中心的平滑升級(jí)。其實(shí)這也是解決超融合落地的問(wèn)題。這種方案允許同一個(gè)數(shù)據(jù)中心中,傳統(tǒng)架構(gòu)與超融合架構(gòu)共存,然后發(fā)揮超融合架構(gòu)按需擴(kuò)展的優(yōu)勢(shì),逐漸將傳統(tǒng)架構(gòu)的部分遷移并擴(kuò)展為超融合的一部分。圖中的物理服務(wù)器就是表達(dá)這種場(chǎng)景。

我們隧道封裝標(biāo)準(zhǔn)選擇VXLAN。

將硬件交換機(jī)作為VTEP,它負(fù)責(zé)VXLAN的封裝和解封,這里雖然對(duì)硬件交換機(jī)有要求,但市場(chǎng)上滿足這些要求的交換機(jī)越來(lái)越多,有傳統(tǒng)交換機(jī)也有開(kāi)放標(biāo)準(zhǔn)的交換機(jī)。并且只對(duì)TOR交換機(jī)有要求,能容易與現(xiàn)有網(wǎng)絡(luò)對(duì)接。

之所以這么選擇,是隧道封裝和解封操作消耗CPU和內(nèi)存資源,采用物理交換機(jī)硬件卸載的方式,能顯著降低計(jì)算節(jié)點(diǎn)的CPU和內(nèi)存占用,并且降低網(wǎng)絡(luò)延遲。

在我們的某些解決方案里,管理網(wǎng)絡(luò)和存儲(chǔ)網(wǎng)絡(luò)也采用這種疊加方案實(shí)現(xiàn)與現(xiàn)網(wǎng)融合,因?yàn)檫@種架構(gòu)性能損耗很低。

正因?yàn)門(mén)OR的管控能力,在主機(jī)上,我們能充分利用硬件能力,進(jìn)一步降低延遲和資源占用,比如圖中的網(wǎng)絡(luò)節(jié)點(diǎn)的負(fù)載均衡服務(wù)就可以使用SRIOV技術(shù),因?yàn)樯厦嬗锌煽氐奈锢斫粨Q機(jī)網(wǎng)絡(luò),并不會(huì)降低網(wǎng)絡(luò)的控制力,仍然能實(shí)現(xiàn)細(xì)粒度的控制,關(guān)于主機(jī)網(wǎng)絡(luò)的詳細(xì)架構(gòu),后面有專門(mén)的一頁(yè)ppt介紹。

注意我們架構(gòu)中的網(wǎng)絡(luò)節(jié)點(diǎn)主要是NFV,專注于4到7層的功能虛擬化,比如負(fù)載均衡、防火墻等。一般的3層功能是分布式的實(shí)現(xiàn),下面會(huì)介紹,也就是分布式路由器。

這里我想說(shuō)一個(gè)我們認(rèn)為超融合架構(gòu)它的性能能夠水平擴(kuò)展的技術(shù)原理,我們稱之為資源的最短路徑調(diào)配,形象的說(shuō)就是資源隨計(jì)算流動(dòng),或者說(shuō)局部性原理。
14

這里我先用大家相對(duì)熟悉的超融合存儲(chǔ)來(lái)闡述,看看數(shù)據(jù)是如何隨著計(jì)算流動(dòng)的:

存儲(chǔ)系統(tǒng)優(yōu)先保留一個(gè)完整副本在本節(jié)點(diǎn)上,也就是副本的本地親和性。這時(shí)從理論上說(shuō),這個(gè)副本的IO路徑最短,讀延遲很低,寫(xiě)延遲也能有所優(yōu)化,因?yàn)槌浞至死帽镜卮鎯?chǔ)資源,延遲低,帶寬高。這里以兩副本舉例,另外一個(gè)副本分散在其他服務(wù)器。當(dāng)這個(gè)虛擬機(jī)遷移之后,我們會(huì)異步的根據(jù)資源情況動(dòng)態(tài)調(diào)度存儲(chǔ),就是說(shuō)使用閑置的資源在本地把副本補(bǔ)足,所以說(shuō)我們盡可能保證資源最短路徑調(diào)配可能性,性能可以做到接近線性擴(kuò)展的能力。當(dāng)然存儲(chǔ)數(shù)據(jù)遷移成本很高,所以受限于容量的因素,也不能100%確保本地有一個(gè)完整副本。但是這個(gè)原理我想已經(jīng)跟大家呈現(xiàn)清楚了。

從網(wǎng)絡(luò)角度來(lái)說(shuō),對(duì)這個(gè)原理的實(shí)現(xiàn)就更加自然了。因?yàn)榫W(wǎng)絡(luò)在本質(zhì)上,是各種設(shè)備中的內(nèi)存操作。

首先從網(wǎng)絡(luò)功能來(lái)說(shuō),對(duì)于二層三層這樣功能,我們實(shí)現(xiàn)分布式處理,這就是我之前說(shuō)的我們每個(gè)計(jì)算節(jié)點(diǎn)同時(shí)也是網(wǎng)絡(luò)節(jié)點(diǎn)。

15
上半部表示的虛擬網(wǎng)絡(luò)的拓?fù)潢P(guān)系,VM1和VM2是不同網(wǎng)絡(luò)的虛擬機(jī),這兩個(gè)網(wǎng)絡(luò)通過(guò)虛擬路由器A在三層互通。下面是物理網(wǎng)絡(luò),可以實(shí)現(xiàn)集中式的路由器,這樣一來(lái)可以工作沒(méi)有問(wèn)題,網(wǎng)絡(luò)路徑變長(zhǎng),流量還要經(jīng)過(guò)集中的節(jié)點(diǎn),容易擁堵,不滿足水平擴(kuò)展特性,沒(méi)法自由伸縮這種屬性。

我們是怎么實(shí)現(xiàn)的?我們實(shí)現(xiàn)一個(gè)分布式路由器,也就是每個(gè)計(jì)算節(jié)點(diǎn)都有一個(gè)虛擬路由器分身,負(fù)責(zé)處理本節(jié)點(diǎn)的二三層通信,它能就近處理東西向轉(zhuǎn)發(fā),所以這里就做到了網(wǎng)絡(luò)功能最短路徑調(diào)配,同時(shí)擴(kuò)展性很好。

再說(shuō)網(wǎng)絡(luò)路徑這一塊,這里展示的是計(jì)算網(wǎng)絡(luò)的一次IP通信的過(guò)程。

當(dāng)VM A想與VM G通信時(shí),這兩個(gè)虛擬機(jī)時(shí)是同一個(gè)網(wǎng)絡(luò)的(不同網(wǎng)絡(luò)的情況在上一張ppt已經(jīng)描述,分布式路由器直接在本地處理完成),VM A首先發(fā)起ARP請(qǐng)求,詢問(wèn)VM G的mac地址,在ARP標(biāo)準(zhǔn)實(shí)現(xiàn)中是要在整個(gè)二層網(wǎng)絡(luò)中廣播,對(duì)于虛擬化場(chǎng)景來(lái)說(shuō)就是廣播到所有宿主機(jī),這樣開(kāi)銷(xiāo)和延遲都不可接受,而且也不具有擴(kuò)展性。我們這里有一個(gè)ARP代理,它是由本地控制器直接管理維護(hù)的,所以ARP請(qǐng)求在本節(jié)點(diǎn)就被攔截并回復(fù),這里也體現(xiàn)了網(wǎng)絡(luò)中控制平面和數(shù)據(jù)平面的徹底分離。然后,VM A開(kāi)始與VM G進(jìn)行IP通信,不需要這時(shí)候再向管理平臺(tái)詢問(wèn)VM G的位置,在創(chuàng)建虛擬機(jī)時(shí),本地控制器就已經(jīng)下發(fā)好轉(zhuǎn)發(fā)規(guī)則,所以流量經(jīng)隧道封裝后,直接向host 4發(fā)出數(shù)據(jù)包。

也就是說(shuō),在邏輯上和物理上,網(wǎng)絡(luò)路徑都盡可能短。同時(shí),盡可能避免了ARP這種“自學(xué)習(xí)”型協(xié)議的問(wèn)題,不但降低了延遲,還提高了對(duì)網(wǎng)絡(luò)的控制能力。

前面說(shuō)的都是更上層的設(shè)計(jì)和實(shí)現(xiàn),重點(diǎn)說(shuō)的是物理機(jī)之外的SDN實(shí)現(xiàn)。

現(xiàn)在我們來(lái)看看主機(jī)內(nèi)部的網(wǎng)絡(luò)結(jié)構(gòu)。這里我們的設(shè)計(jì)目標(biāo)就是高性能(延遲和帶寬)和低的資源占用。

16

我們的設(shè)計(jì)思想是全用戶態(tài)實(shí)現(xiàn),并充分利用硬件卸載特性。

全用戶態(tài)軟件棧一方面是更易維護(hù),升級(jí)迭代更快;另一方面就是提升性能,可以進(jìn)一步減少用戶態(tài)和內(nèi)核態(tài)的切換和內(nèi)存數(shù)據(jù)拷貝次數(shù)。而充分利用硬件卸載特性能可以顯著降低CPU和內(nèi)存的資源占用,性能也更高。

我們?cè)敿?xì)來(lái)看:整個(gè)主機(jī)網(wǎng)絡(luò)結(jié)構(gòu),我們以intel的DPDK為核心,DPDK是高性能的用戶態(tài)網(wǎng)絡(luò)庫(kù),使用了大頁(yè)內(nèi)存管理、無(wú)鎖隊(duì)列、快速流分類、輪詢模式的用戶態(tài)網(wǎng)卡驅(qū)動(dòng)等技術(shù),提供了強(qiáng)大的網(wǎng)絡(luò)處理能力。

圖中的virtio是半虛擬化IO框架,由虛擬機(jī)中的virtio前端和宿主機(jī)中的virtio后端組成,它們之間通過(guò)循環(huán)緩存區(qū)交互數(shù)據(jù),現(xiàn)在基本成為了IO虛擬化的標(biāo)準(zhǔn)。

使用DPDK技術(shù)的虛擬交換機(jī),數(shù)據(jù)平面的處理過(guò)程全部在用戶態(tài),virtio后端也在用戶態(tài)實(shí)現(xiàn),并且可以直接利用物理網(wǎng)卡的VMDq、流量鏡像、虛擬網(wǎng)橋等硬件特性。這樣其實(shí)數(shù)據(jù)平面的很多處理都卸載到物理網(wǎng)卡。

其中黑色實(shí)線箭頭是控制平面,本地控制器預(yù)先配置好OVS的流表規(guī)則,紅色虛線箭頭代表了數(shù)據(jù)平面。

其中左邊的虛擬機(jī)表示的是虛擬機(jī)里面也使用DPDK,這種是高性能NFV的實(shí)現(xiàn)方案,性能更出色,當(dāng)然相關(guān)網(wǎng)絡(luò)功能需要使用DPDK開(kāi)發(fā),我們正在將負(fù)載均衡服務(wù)向DPDK移植。右邊的是業(yè)務(wù)虛擬機(jī),代表的是提供給用戶使用的虛擬機(jī)情況。

圖中的SRIOV的數(shù)據(jù)平面因?yàn)椴辉诒镜乜刂破鞯目刂品秶?,只能在TOR層面控制,所以目前我們只用于NFV中。

說(shuō)了那么多,就說(shuō)我們到底性能提升怎么樣,這是我們一個(gè)評(píng)測(cè),是在我們的標(biāo)準(zhǔn)一體機(jī)環(huán)境中測(cè)試的。

上面表格對(duì)比的是純軟件情況下VXLAN疊加網(wǎng)絡(luò)和使用硬件交換機(jī)作為VTEP情況下的對(duì)比測(cè)試。這里的大包帶寬測(cè)試,主機(jī)網(wǎng)絡(luò)部分的優(yōu)化對(duì)降低延遲有一定作用,對(duì)帶寬影響小,這里主要是前面數(shù)據(jù)平面方案的性能提升。可以到帶寬提升很明顯,能達(dá)到接近于線速,延遲顯著降低,資源占用也少。

下面表格是體現(xiàn)的主機(jī)網(wǎng)絡(luò)優(yōu)化的作用,在小包轉(zhuǎn)發(fā)情況下對(duì)比明顯。包轉(zhuǎn)發(fā)速率從Linux原生方案的70萬(wàn)每秒提升到250萬(wàn)每秒。這說(shuō)明Linux的網(wǎng)絡(luò)協(xié)議棧并不高效,尤其是對(duì)于小包轉(zhuǎn)發(fā)來(lái)說(shuō)。而我們的全用戶態(tài)網(wǎng)絡(luò)方案對(duì)小包轉(zhuǎn)發(fā)性能提升明顯。CPU資源占用降低特別明顯,從占滿6個(gè)核(也就是物理機(jī)一半的CPU資源),降低為只占用一個(gè)核,其他核完全空閑。當(dāng)然實(shí)際網(wǎng)絡(luò)應(yīng)用的性能提升不會(huì)這么明顯,因?yàn)橛胁簧傩枰狢PU處理的業(yè)務(wù)邏輯。

前面說(shuō)的都是我們?cè)谛阅芊矫娴膬?yōu)化,主要包括低延遲、自由伸縮、資源占用低三方面?,F(xiàn)在說(shuō)說(shuō)易操作,重點(diǎn)是運(yùn)維方便。

首先看鏈路連通性檢測(cè)和診斷。舉一個(gè)簡(jiǎn)單的例子,當(dāng)2個(gè)虛擬機(jī)互通出現(xiàn)問(wèn)題時(shí),運(yùn)維人員需要查詢虛擬機(jī)位置、查詢主機(jī)間網(wǎng)絡(luò)拓?fù)?、整理出流量拓?fù)?、登錄若干個(gè)設(shè)備,如果一切順利的話,他可能定位到故障點(diǎn)。但是采用疊加網(wǎng)絡(luò)之后,這些流量對(duì)傳統(tǒng)的交換機(jī)不可見(jiàn),很難定義虛擬機(jī)通信到底哪一點(diǎn)出現(xiàn)問(wèn)題。更不用說(shuō)大規(guī)模下,以及主機(jī)網(wǎng)絡(luò)中的軟件復(fù)雜性。

端到端監(jiān)測(cè)將源、目的虛擬機(jī)報(bào)文流經(jīng)的路徑以圖形化的形式展現(xiàn),快速直觀地展示端到端網(wǎng)絡(luò)狀態(tài)。這里的原理同traceroute,但采用的是本地控制器模擬虛擬機(jī)在虛擬網(wǎng)絡(luò)中發(fā)送icmp報(bào)文。

還有一種更棘手的情況,就是發(fā)生了網(wǎng)絡(luò)擁堵,因?yàn)榱髁渴莿?dòng)態(tài)變化的,如果采用逐一檢查每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)的統(tǒng)計(jì)值,排查出網(wǎng)絡(luò)擁堵點(diǎn)特別困難,尤其是在疊加網(wǎng)絡(luò)情況下,流量被封裝起來(lái),定位特定業(yè)務(wù)流量的瓶頸,用傳統(tǒng)方法根本不可行。

17

看圖中的例子,左邊的一個(gè)虛擬機(jī)向右邊的發(fā)送數(shù)據(jù),在左上的這個(gè)交換機(jī)上發(fā)生了擁堵,實(shí)際整個(gè)通信路徑的有效帶寬降低了。

網(wǎng)絡(luò)瓶頸檢測(cè)的原理很簡(jiǎn)單,控制器可以檢測(cè)特定虛擬機(jī)在全部網(wǎng)絡(luò)節(jié)點(diǎn)的流量統(tǒng)計(jì)值,在觀察窗口內(nèi)能找出特定流量在每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)入口和出口的流量差距,定位網(wǎng)絡(luò)瓶頸。

但實(shí)現(xiàn)上必須是物理交換機(jī)能“看到”隧道中的內(nèi)部流量情況,按內(nèi)部流量的mac值區(qū)分特定流量。在我們的數(shù)據(jù)平面方案中,TOR交換機(jī)均具有此項(xiàng)能力。

管理網(wǎng)絡(luò)和存儲(chǔ)網(wǎng)絡(luò)更簡(jiǎn)單,在觀察窗口內(nèi)檢測(cè)物理交換機(jī)這些中間網(wǎng)絡(luò)節(jié)點(diǎn)就可以定位。

這個(gè)還能更進(jìn)一步,我們下一步計(jì)劃要做,就是反饋控制,依據(jù)檢測(cè)的結(jié)果自動(dòng)調(diào)整對(duì)網(wǎng)絡(luò)的控制。

說(shuō)了那么多,其實(shí)超融合架構(gòu)下網(wǎng)絡(luò)我們還有很多很多工作要做,這是我們對(duì)超融合架構(gòu)網(wǎng)絡(luò)的展望:

1. 我們認(rèn)為SDN主戰(zhàn)場(chǎng)是數(shù)據(jù)中心,超融合架構(gòu)是主要應(yīng)用場(chǎng)景;

2. 超融合架構(gòu)中計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)三網(wǎng)進(jìn)一步融合。

3. 計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源協(xié)同控制。

4. 最終目標(biāo)實(shí)現(xiàn)指尖上的數(shù)據(jù)中心——軟件定義數(shù)據(jù)中心,讓我們系統(tǒng)能夠協(xié)同控制計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)各種資源。

我的分享就到這里,謝謝大家。
編注:中國(guó)存儲(chǔ)峰會(huì)是每年一度、亞洲最具規(guī)模的存儲(chǔ)產(chǎn)業(yè)年度大會(huì),歷時(shí)十二載,記錄了存儲(chǔ)產(chǎn)業(yè)的諸多變化。每年的存儲(chǔ)峰會(huì)都吸引學(xué)術(shù)界、產(chǎn)業(yè)界和最終用戶代表的積極參與。存儲(chǔ)峰會(huì)對(duì)中國(guó)存儲(chǔ)行業(yè)的發(fā)展做出了許多重大貢獻(xiàn)。云計(jì)算、大數(shù)據(jù)對(duì)傳統(tǒng)IT產(chǎn)業(yè)帶來(lái)了許多變化,為IT系統(tǒng)提出了新的要求,存儲(chǔ)作為IT系統(tǒng)中極為重要的一環(huán)也在迎接新的挑戰(zhàn),正在舉行的2016中國(guó)存儲(chǔ)峰緊抓熱門(mén)需求,從技術(shù)、產(chǎn)業(yè)、產(chǎn)品角度,匯集了資深行業(yè)人士,呈現(xiàn)年度最權(quán)威的存儲(chǔ)盛會(huì)。

 

分享到

xiesc

相關(guān)推薦