中文字幕一区二区三区日韩精品,av国产剧情md精品麻豆,亚洲一卡二卡三卡四卡18岁

邁絡(luò)思亞太區(qū)解決方案營銷總監(jiān) 張輝

　　張輝表示，早期的矛盾主要集中在毫秒級(jí)別的磁盤介質(zhì)延遲，而網(wǎng)絡(luò)延遲和軟件堆棧(200+微秒)基本都處于微秒級(jí)別。然而，現(xiàn)在的介質(zhì)延遲基本已經(jīng)被控制在微秒級(jí)別。這時(shí)候你會(huì)發(fā)現(xiàn)你的瓶頸主要矛盾已經(jīng)不是介質(zhì)，而是網(wǎng)絡(luò)本身和軟件堆棧。

　　以下為張輝的演講實(shí)錄整理：

　　今天我要講的內(nèi)容是網(wǎng)絡(luò)如何把存儲(chǔ)的性能釋放出來，并把閃存的性能釋放得更高。

　　我們現(xiàn)在可以看到，閃存發(fā)展越來越快，整個(gè)生態(tài)系統(tǒng)也會(huì)增長越來越快，幾乎接近100%的增長速度。當(dāng)然，NVMe相關(guān)的增長也更快，在2020年的時(shí)候，有70%的Server會(huì)用到NVMe。存儲(chǔ)方面，幾乎70、80%會(huì)用到NVMe。也就說，用不到NVMe的場景會(huì)很少。

　　最早的SAS、SATA、PCI的NVMe。這條做技術(shù)什么感覺？傳統(tǒng)的磁盤，走SCSi協(xié)議一路下來是沒有問題的，但是介質(zhì)和技術(shù)在發(fā)展的時(shí)候，協(xié)議(軟件層)沒有更大的進(jìn)步，這時(shí)候會(huì)出現(xiàn)效率降低。這里面有一個(gè)對(duì)比，一個(gè)是SAS，一個(gè)是SATA，基于SATA走PCIe的性能會(huì)出現(xiàn)幾倍的差距，因?yàn)镹VMe把整個(gè)協(xié)議層做了重新的編寫，跳過了一些比較繁鎖的過程。

　　存儲(chǔ)是隨著介質(zhì)的變化，科技的發(fā)展，當(dāng)然最重要的也是來自于客戶需求的變化，迫使我們做更好。為此，我們有兩個(gè)層面的應(yīng)對(duì)方法。一個(gè)容量更大，另外一個(gè)是速度更快。單介質(zhì)目前發(fā)展的比較快，包括未來會(huì)有3D XPoint，而我個(gè)人比較堅(jiān)信未來Flash會(huì)發(fā)展的越來越快，越來越好。

　　這個(gè)問題暴露出來這個(gè)單節(jié)點(diǎn)性能越來越好，那么他們之間如何通信？我舉兩個(gè)例子，比如北京的交通。我相信無論是北京還是三、四線城市都會(huì)擁堵，拓寬街道其實(shí)難以解決這個(gè)問題。那么怎么解決這個(gè)問題？不可能不買車，就像不可能不去運(yùn)用我們這些數(shù)據(jù)，如何疏導(dǎo)也是一個(gè)問題。因此我剛才提到了帶寬，再一個(gè)就是協(xié)議層的調(diào)整。在網(wǎng)絡(luò)上相對(duì)比較簡單，我們看一下Mellanox是怎么做的。在NVMe出現(xiàn)以后你會(huì)發(fā)現(xiàn)，萬兆根本無法支撐，百G的情況下也只能跑3-4個(gè)。所以說，25G剛剛起步，一個(gè)25G剛剛夠支撐一個(gè)NVMe。

　　剛才我們談了介質(zhì)，現(xiàn)在我想談“超融合”。超融合是典型的分布式，節(jié)點(diǎn)之間的通信流量會(huì)很大。因此這個(gè)技術(shù)對(duì)都網(wǎng)絡(luò)的要求會(huì)越來越高，對(duì)延時(shí)和帶寬也都有很高的要求。

　　再回到技術(shù)看一下，我們要優(yōu)先解決網(wǎng)絡(luò)中的主要問題。早期的矛盾主要集中在毫秒級(jí)別的磁盤介質(zhì)延遲，而網(wǎng)絡(luò)延遲和軟件堆棧(200+微秒)基本都處于微秒級(jí)別。然而，現(xiàn)在的介質(zhì)延遲基本已經(jīng)被控制在微秒級(jí)別。這時(shí)候你會(huì)發(fā)現(xiàn)你的瓶頸主要矛盾已經(jīng)不是介質(zhì)，而是網(wǎng)絡(luò)本身和軟件堆棧。目前Mellanox已經(jīng)可以把軟件堆棧控制在幾百個(gè)納秒。可以說，目前TCP/IP方法論已經(jīng)影響了整個(gè)系統(tǒng)的性能。

　　RDMA是什么？它就是遠(yuǎn)程直接訪問，繞過軟件堆棧，繞過CPU，不需要CPU干預(yù)，因?yàn)閮?nèi)核會(huì)產(chǎn)生中斷，出現(xiàn)等待時(shí)間。而RDMA是遠(yuǎn)程直接訪問的，CPU卸載后，效率會(huì)提升好多倍，200多個(gè)微秒的軟件堆棧延遲就可以忽略了。

　　今年會(huì)有一個(gè)新的標(biāo)準(zhǔn)RoCE(RDMA over Converged Ethernet)，是跑在以太網(wǎng)上的RDMA。性能比跑在InfiniBand上略低，但是相對(duì)之前行能也會(huì)有很多倍的提升，而且成本更低。今年6月份會(huì)有新的RoCE標(biāo)準(zhǔn)提出來，其中一個(gè)是RoCE會(huì)支持NVMe over Fabric。我們的新產(chǎn)品會(huì)支持200G。

　　在分布式存儲(chǔ)中，為了保證數(shù)據(jù)的安全性，會(huì)進(jìn)行備份，但是利潤率會(huì)變低，需要糾刪碼提高利用率。糾刪碼需要做重新計(jì)算，需要CPU資源，占用率有時(shí)會(huì)非常高。在我們的產(chǎn)品上，會(huì)把糾刪碼交給閃存卡來做，不需要占用CPU。

　　NVME Over Fabrics這個(gè)很好，未來空間也很大。但是在傳統(tǒng)設(shè)計(jì)里，它也需要消耗CPU資源。因此我們希望CPU只是用來做計(jì)算的，如網(wǎng)絡(luò)計(jì)算，NVME Over Fabrics這些工作量，都可以交給閃存卡來做。

　　剛才講到一些產(chǎn)品和技術(shù)趨勢，現(xiàn)在我想介紹一下我們的產(chǎn)品。

　　今天我希望大家記住一個(gè)新單位，就是納秒。我們這款機(jī)器的延遲維持300納秒左右，和市場上的幾個(gè)微妙的以太網(wǎng)產(chǎn)品差10倍以上，這是低延遲。帶寬方面，目前是100G，明年我們還會(huì)有200G的產(chǎn)品推出。另外，丟包也是影響存儲(chǔ)效率的比較重要的問題，Mellanox目前可以做到0丟包。當(dāng)然還有功耗問題，我們也提供了很低的功耗。

　　現(xiàn)在我想談一下閃存卡的問題。我發(fā)現(xiàn)有很多的技術(shù)在里面。首先是帶寬的問題， 100G帶寬，延遲0.7微秒，即700納秒，其中我們的卡的延遲只有200納秒，剩余延遲由軟件堆棧產(chǎn)生。從ConnectX 4開始，我們可以支持NVMe Over Fabrics。到了ConnectX 5這一代，開始支持NVMe的卸載，會(huì)釋放CPU的資源，讓你的CPU專門做復(fù)制、快照、重刪、容災(zāi)等，從而實(shí)現(xiàn)低延遲，高效率。同時(shí)，ConnectX 5里還集成了E switch，基于這個(gè)卡可以創(chuàng)建出一個(gè)小的存儲(chǔ)系統(tǒng)。

　　到了BlueField的階段，它集成了ConnectX 5所有的功能，100G芯片，前后端的端口，支持PCIe Gen3、PCIe Gen4，同時(shí)還有一個(gè)ARM。可以說，有這個(gè)芯片，和一個(gè)主板，就可以設(shè)計(jì)你的整個(gè)系統(tǒng)了。BlueField可以幫助企業(yè)建立全閃存系統(tǒng),從前端的連接到主機(jī)，后端的連接到磁盤，再到計(jì)算。

　　目前我們最新的產(chǎn)品是ConnectX-6，支持PCIe Gen4，適用如高性能計(jì)算等應(yīng)用場景。

　　下面我想為大家介紹一下落地的東西。第一個(gè)華為，在華為這款基于Mellanox的產(chǎn)品中，我們做到了1000萬IOPS;第二個(gè)是華云網(wǎng)際(FusionStack)，單節(jié)點(diǎn)做到100萬IOPS;下面是Memblaze，同樣做到100萬 IOPS，帶寬是10GB/s最后一個(gè)是戴爾EMC的Isilon，也是用的我們的網(wǎng)絡(luò)。在基于Mellanox的網(wǎng)絡(luò)里面，都能把存儲(chǔ)的性能發(fā)揮到極致。大家可以看到，我們所有的產(chǎn)品基本都是單節(jié)點(diǎn)百萬IPOS起。

　　我在這里面有一個(gè)觀點(diǎn)，如果想把性能發(fā)揮到極致，那么一定不能讓網(wǎng)絡(luò)成為你的瓶頸。反而要利用網(wǎng)絡(luò)，降低你的消耗，降低你的性能依賴，讓存儲(chǔ)系統(tǒng)跑得更快。

　　謝謝大家。

分享到

sunk

相關(guān)推薦

近期文章

熱門標(biāo)簽