RDMA有什么優(yōu)勢(shì)?
延遲低
參考上圖,傳統(tǒng)TCP/IP數(shù)據(jù)傳輸方式需要經(jīng)過大量協(xié)議層,RDMA通過Kernel Bypass方式可以避免那些開銷。市場(chǎng)上在售的Mellanox CX3 PCIe3 FDR HCA延遲小于1ms。
高帶寬
經(jīng)過測(cè)試,Mellanox CX3 PCIe3 FDR HCA 帶寬可以超過50Gbps。
低CPU使用率
由于RDMA減少大量?jī)?nèi)核協(xié)議處理工作,數(shù)據(jù)實(shí)現(xiàn)零拷貝,因此計(jì)算機(jī)CPU使用率可以大大減少。
RDMA可用方案:
基于以太網(wǎng)(iWARP)
基于聚合網(wǎng) (RDMA over Converged Network)
基于Infiniband (RDMA over infiniband)
RDMA常見應(yīng)用場(chǎng)景:
RDMA常見使用場(chǎng)景包括:HPC高性能計(jì)算,集群數(shù)據(jù)庫(IBM DB2 pureScale和Oracle ExaData/RAC),分布式文件系統(tǒng)(IBM GPFS和Lustre和Red Hat Storage Gluster),分布式Cache(Dell RNA),金融領(lǐng)域和大數(shù)據(jù)(Hadoop:Mellanox加速器)
vSphere可選 RDMA方案:
全功能模式DirectPath I/O passthrough
SR-IOV VF模式的DirectPath I/O passthrough
半虛擬化的RDMA HCA(vRDMA)
前兩種方案現(xiàn)在已經(jīng)可用,第三種方案還在開發(fā)中。
vMotion與RDMA:
vMotion是vSphere專門提供用于虛擬機(jī)在線遷移的功能,現(xiàn)有方案基于TCP/IP協(xié)議。由于虛擬機(jī)遷移最大的問題是需要在兩臺(tái)ESX/ESXi服務(wù)器之間同步虛擬機(jī)的內(nèi)存,因此當(dāng)虛擬機(jī)內(nèi)存很大, 而且業(yè)務(wù)很繁忙時(shí),虛擬機(jī)在線遷移會(huì)對(duì)ESX/ESXi服務(wù)器性能產(chǎn)生嚴(yán)重挑戰(zhàn)。如果vMotion基于RDMA,可以在遷移過程實(shí)現(xiàn)數(shù)據(jù)零拷貝、低延遲、消除內(nèi)核中TCP/IP的協(xié)議開銷。
測(cè)試項(xiàng)目
SPECjbb2005 50GB workload
測(cè)試環(huán)境
Two HP ProLiant ML 350 G6 machines, 2x Intel Xeon (E5520, E5620), HT enabled, 60 GB RAM
Mellanox 40GbE RoCE cards •ConnectX-2 VPI PCIe 2.0 x8, 5.0 GT/s
56 GB, 4 vCPU Linux VM
測(cè)試結(jié)果
通過測(cè)試可以發(fā)現(xiàn),基于RDMA在線遷移對(duì)比TCP/IP可以節(jié)省36%時(shí)間,帶寬性能提升30%,遷移過程中源ESX服務(wù)器CPU使用率下降92%,目的ESX服務(wù)器CPU使用率下降84%。