邁絡(luò)思亞太區(qū)解決方案營銷總監(jiān) 張輝
張輝表示,早期的矛盾主要集中在毫秒級(jí)別的磁盤介質(zhì)延遲,而網(wǎng)絡(luò)延遲和軟件堆棧(200+微秒)基本都處于微秒級(jí)別。然而,現(xiàn)在的介質(zhì)延遲基本已經(jīng)被控制在微秒級(jí)別。這時(shí)候你會(huì)發(fā)現(xiàn)你的瓶頸主要矛盾已經(jīng)不是介質(zhì),而是網(wǎng)絡(luò)本身和軟件堆棧。
以下為張輝的演講實(shí)錄整理:
今天我要講的內(nèi)容是網(wǎng)絡(luò)如何把存儲(chǔ)的性能釋放出來,并把閃存的性能釋放得更高。
我們現(xiàn)在可以看到,閃存發(fā)展越來越快,整個(gè)生態(tài)系統(tǒng)也會(huì)增長越來越快,幾乎接近100%的增長速度。當(dāng)然,NVMe相關(guān)的增長也更快,在2020年的時(shí)候,有70%的Server會(huì)用到NVMe。存儲(chǔ)方面,幾乎70、80%會(huì)用到NVMe。也就說,用不到NVMe的場景會(huì)很少。
最早的SAS、SATA、PCI的NVMe。這條做技術(shù)什么感覺?傳統(tǒng)的磁盤,走SCSi協(xié)議一路下來是沒有問題的,但是介質(zhì)和技術(shù)在發(fā)展的時(shí)候,協(xié)議(軟件層)沒有更大的進(jìn)步,這時(shí)候會(huì)出現(xiàn)效率降低。這里面有一個(gè)對比,一個(gè)是SAS,一個(gè)是SATA,基于SATA走PCIe的性能會(huì)出現(xiàn)幾倍的差距,因?yàn)镹VMe把整個(gè)協(xié)議層做了重新的編寫,跳過了一些比較繁鎖的過程。
存儲(chǔ)是隨著介質(zhì)的變化,科技的發(fā)展,當(dāng)然最重要的也是來自于客戶需求的變化,迫使我們做更好。為此,我們有兩個(gè)層面的應(yīng)對方法。一個(gè)容量更大,另外一個(gè)是速度更快。單介質(zhì)目前發(fā)展的比較快,包括未來會(huì)有3D XPoint,而我個(gè)人比較堅(jiān)信未來Flash會(huì)發(fā)展的越來越快,越來越好。
這個(gè)問題暴露出來這個(gè)單節(jié)點(diǎn)性能越來越好,那么他們之間如何通信?我舉兩個(gè)例子,比如北京的交通。我相信無論是北京還是三、四線城市都會(huì)擁堵,拓寬街道其實(shí)難以解決這個(gè)問題。那么怎么解決這個(gè)問題?不可能不買車,就像不可能不去運(yùn)用我們這些數(shù)據(jù),如何疏導(dǎo)也是一個(gè)問題。因此我剛才提到了帶寬,再一個(gè)就是協(xié)議層的調(diào)整。在網(wǎng)絡(luò)上相對比較簡單,我們看一下Mellanox是怎么做的。在NVMe出現(xiàn)以后你會(huì)發(fā)現(xiàn),萬兆根本無法支撐,百G的情況下也只能跑3-4個(gè)。所以說,25G剛剛起步,一個(gè)25G剛剛夠支撐一個(gè)NVMe。
剛才我們談了介質(zhì),現(xiàn)在我想談“超融合”。超融合是典型的分布式,節(jié)點(diǎn)之間的通信流量會(huì)很大。因此這個(gè)技術(shù)對都網(wǎng)絡(luò)的要求會(huì)越來越高,對延時(shí)和帶寬也都有很高的要求。
再回到技術(shù)看一下,我們要優(yōu)先解決網(wǎng)絡(luò)中的主要問題。早期的矛盾主要集中在毫秒級(jí)別的磁盤介質(zhì)延遲,而網(wǎng)絡(luò)延遲和軟件堆棧(200+微秒)基本都處于微秒級(jí)別。然而,現(xiàn)在的介質(zhì)延遲基本已經(jīng)被控制在微秒級(jí)別。這時(shí)候你會(huì)發(fā)現(xiàn)你的瓶頸主要矛盾已經(jīng)不是介質(zhì),而是網(wǎng)絡(luò)本身和軟件堆棧。目前Mellanox已經(jīng)可以把軟件堆??刂圃趲装賯€(gè)納秒。可以說,目前TCP/IP方法論已經(jīng)影響了整個(gè)系統(tǒng)的性能。
RDMA是什么?它就是遠(yuǎn)程直接訪問,繞過軟件堆棧,繞過CPU,不需要CPU干預(yù),因?yàn)閮?nèi)核會(huì)產(chǎn)生中斷,出現(xiàn)等待時(shí)間。而RDMA是遠(yuǎn)程直接訪問的,CPU卸載后,效率會(huì)提升好多倍,200多個(gè)微秒的軟件堆棧延遲就可以忽略了。
今年會(huì)有一個(gè)新的標(biāo)準(zhǔn)RoCE(RDMA over Converged Ethernet),是跑在以太網(wǎng)上的RDMA。性能比跑在InfiniBand上略低,但是相對之前行能也會(huì)有很多倍的提升,而且成本更低。今年6月份會(huì)有新的RoCE標(biāo)準(zhǔn)提出來,其中一個(gè)是RoCE會(huì)支持NVMe over Fabric。我們的新產(chǎn)品會(huì)支持200G。
在分布式存儲(chǔ)中,為了保證數(shù)據(jù)的安全性,會(huì)進(jìn)行備份,但是利潤率會(huì)變低,需要糾刪碼提高利用率。糾刪碼需要做重新計(jì)算,需要CPU資源,占用率有時(shí)會(huì)非常高。在我們的產(chǎn)品上,會(huì)把糾刪碼交給閃存卡來做,不需要占用CPU。
NVME Over Fabrics這個(gè)很好,未來空間也很大。但是在傳統(tǒng)設(shè)計(jì)里,它也需要消耗CPU資源。因此我們希望CPU只是用來做計(jì)算的,如網(wǎng)絡(luò)計(jì)算,NVME Over Fabrics這些工作量,都可以交給閃存卡來做。
剛才講到一些產(chǎn)品和技術(shù)趨勢,現(xiàn)在我想介紹一下我們的產(chǎn)品。
今天我希望大家記住一個(gè)新單位,就是納秒。我們這款機(jī)器的延遲維持300納秒左右,和市場上的幾個(gè)微妙的以太網(wǎng)產(chǎn)品差10倍以上,這是低延遲。帶寬方面,目前是100G,明年我們還會(huì)有200G的產(chǎn)品推出。另外,丟包也是影響存儲(chǔ)效率的比較重要的問題,Mellanox目前可以做到0丟包。當(dāng)然還有功耗問題,我們也提供了很低的功耗。
現(xiàn)在我想談一下閃存卡的問題。我發(fā)現(xiàn)有很多的技術(shù)在里面。首先是帶寬的問題, 100G帶寬,延遲0.7微秒,即700納秒,其中我們的卡的延遲只有200納秒,剩余延遲由軟件堆棧產(chǎn)生。從ConnectX 4開始,我們可以支持NVMe Over Fabrics。到了ConnectX 5這一代,開始支持NVMe的卸載,會(huì)釋放CPU的資源,讓你的CPU專門做復(fù)制、快照、重刪、容災(zāi)等,從而實(shí)現(xiàn)低延遲,高效率。同時(shí),ConnectX 5里還集成了E switch,基于這個(gè)卡可以創(chuàng)建出一個(gè)小的存儲(chǔ)系統(tǒng)。
到了BlueField的階段,它集成了ConnectX 5所有的功能,100G芯片,前后端的端口,支持PCIe Gen3、PCIe Gen4,同時(shí)還有一個(gè)ARM??梢哉f,有這個(gè)芯片,和一個(gè)主板,就可以設(shè)計(jì)你的整個(gè)系統(tǒng)了。BlueField可以幫助企業(yè)建立全閃存系統(tǒng),從前端的連接到主機(jī),后端的連接到磁盤,再到計(jì)算。
目前我們最新的產(chǎn)品是ConnectX-6,支持PCIe Gen4,適用如高性能計(jì)算等應(yīng)用場景。
下面我想為大家介紹一下落地的東西。第一個(gè)華為,在華為這款基于Mellanox的產(chǎn)品中,我們做到了1000萬IOPS;第二個(gè)是華云網(wǎng)際(FusionStack),單節(jié)點(diǎn)做到100萬IOPS;下面是Memblaze,同樣做到100萬 IOPS,帶寬是10GB/s最后一個(gè)是戴爾EMC的Isilon,也是用的我們的網(wǎng)絡(luò)。在基于Mellanox的網(wǎng)絡(luò)里面,都能把存儲(chǔ)的性能發(fā)揮到極致。大家可以看到,我們所有的產(chǎn)品基本都是單節(jié)點(diǎn)百萬IPOS起。
我在這里面有一個(gè)觀點(diǎn),如果想把性能發(fā)揮到極致,那么一定不能讓網(wǎng)絡(luò)成為你的瓶頸。反而要利用網(wǎng)絡(luò),降低你的消耗,降低你的性能依賴,讓存儲(chǔ)系統(tǒng)跑得更快。
謝謝大家。