成人免费观看视频,久久国产热视频

近日，Mellanox市場副總裁Gilad Shainer向媒體首次公布了其產(chǎn)品路線圖，不僅僅將于2017年推出200Gb/s的產(chǎn)品，還透露計劃于2019年推出400Gb/s的下一代新品。Gilad Shainer業(yè)沒有忘記吐槽老對手Intel Omni-Path，當(dāng)然，這些吐槽建立在各種數(shù)據(jù)之上。

高性能計算的演變：Co-Design的產(chǎn)生

所謂Co-Design，在此處就是網(wǎng)絡(luò)、存儲、軟件等系統(tǒng)及設(shè)備的協(xié)同設(shè)計，其目標(biāo)，是通過一種Mellanox稱之為Sharp的技術(shù)，卸載CPU的部分操作，實現(xiàn)數(shù)據(jù)傳輸過程中的計算，從而加速計算進程。

要講清楚Sharp，就有必要從高性能計算開始。

20年來，高性能計算的發(fā)展已經(jīng)經(jīng)過了多次迭代。從最開始的SMP小型機，到集群式系統(tǒng)，以及CPU從單核到多核的轉(zhuǎn)變，大幅提升了高性能計算的性能。

雖然多核可以滿足同時計算，但是它并沒有辦法把一個應(yīng)用程序運行的時間縮短。因為CPU的主頻是固定的，這種方式發(fā)展應(yīng)用程序并不能一直地向上擴展。

也就是說，之前的計算環(huán)境都是以CPU為核心的，但是CPU為核心的計算環(huán)境很容易達(dá)到性能的瓶頸。因為現(xiàn)在有越來越多的數(shù)據(jù)，而且數(shù)據(jù)的處理要求更快、更實時。但是傳統(tǒng)的方式是CPU需要等待數(shù)據(jù)過來才能處理，這就是計算的瓶頸所在。

所以Co-Design的理念應(yīng)運而生，就是硬件、軟件與系統(tǒng)來合作開發(fā)面對未來的高性能計算需求，解決性能的瓶頸問題。在Co-Design環(huán)境下，CPU只是計算單元之一，存儲、網(wǎng)絡(luò)，在整個計算里面起到的角色越來越重要。

基于Co-Design，可以實現(xiàn)數(shù)據(jù)在網(wǎng)絡(luò)中的計算，也就是數(shù)據(jù)在移動過程中就已經(jīng)計算完畢了，所以CPU要做的事情已經(jīng)大幅地下降，這就可以整體地縮減完成一個數(shù)據(jù)分析或者是計算的時間。

Gilad Shainer說：“通過在網(wǎng)絡(luò)當(dāng)中完成計算，每一個交換機都是協(xié)處理器，都能做計算。當(dāng)數(shù)據(jù)在傳輸?shù)倪^程中，我們已經(jīng)完成了很多需要計算的工作。這是加速效率的一個最有效的途徑。”

從網(wǎng)絡(luò)延遲的發(fā)展看Co-Design的必要性

Gilad Shainer還用實際計算中網(wǎng)絡(luò)延遲的發(fā)展來說明Co-Design的必要性。

10年前，一個網(wǎng)絡(luò)中硬件的延遲可能是10微秒，用在通訊中，加上軟件之后，總的通訊延遲是100微秒，也就是說，加載了軟件后，網(wǎng)絡(luò)的負(fù)荷加重了。

今天，經(jīng)過CPU不斷地提速，網(wǎng)絡(luò)的延遲已經(jīng)從100微秒下降到10微秒。其中，硬件從10微秒下降到0.1微秒。

但是，硬件還能否像以前一樣從10微秒下降成0.1微秒？“這是100倍的提升，是不可能的，因為硬件已經(jīng)達(dá)到了一個極限。”Gilad Shainer說。

今天，全世界最快的硬件是90納秒，也就是小于100個納秒，將來Mellanox可能會做到50納秒、80納秒、70納秒，但是70、80對90來說只是提高了10到20納秒，很客觀地來講，這對應(yīng)用程序是可以忽略不計的。

硬件通訊延遲的提升，應(yīng)用程序卻看不到效果。但是應(yīng)用在軟件層帶來的通訊負(fù)荷相反卻很大，它還有10微秒，如果下降成1微秒，還有10倍的差距，而且它跟納秒級還有很大的一個量級的差距。

所以，除了再進一步地提升硬件的性能之外，在軟件，在整個通訊層上要去考慮如何做協(xié)同的設(shè)計，讓整個通訊層的時間能夠大幅下降，不能僅僅關(guān)注于在網(wǎng)絡(luò)的本身。

“我們必須要打開自己的思路，讓整個通訊的架構(gòu)有一個轉(zhuǎn)變。這就是Co-design，在數(shù)據(jù)移動當(dāng)中完成該完成的計算工作，來降低整個通訊的時間?！盙ilad Shainer認(rèn)為，“現(xiàn)在的情況是Mellanox正在朝這個方向走，很快就會達(dá)到這個程度?！?/p>

集成Sharp技術(shù)的Switch-IB 2交換機

賣了半天關(guān)子，Gilad Shainer表示，這種網(wǎng)絡(luò)完成計算的工作，Mellanox暫且稱之為“Sharp”，Sharp已經(jīng)在2015年6月發(fā)布的全球首款智能交換機Switch-IB 2中得到應(yīng)用。

Switch-IB 2具有全世界最快的延遲的速度，只有90納秒，支持動態(tài)路由等等。除此之外，智能交換機的意義是將原來在高性能計算里用得最多的靠CPU來完成的MPI的操作，轉(zhuǎn)移交換機里完成。從而大幅地提升MPI應(yīng)用程序的性能。

“這是Co-design非常重要的一步，也是第一步，把集群的通訊移到交換機里去完成。這項技術(shù)我們起名叫Sharp?！?/p>

Sharp不僅僅能用于高性能計算，還可以應(yīng)用于深度學(xué)習(xí)、大數(shù)據(jù)分析，所有涉及到密集數(shù)據(jù)傳輸?shù)膽?yīng)用都可以借用到Sharp技術(shù)，當(dāng)數(shù)據(jù)匯集在交換機的時候，交換機就會完成一些計算。

約一年后的5月17日，Mellanox與京東簽署全面合作框架協(xié)議，雙方共同建立“JD-Mellanox聯(lián)合創(chuàng)新實驗室”，將在技術(shù)創(chuàng)新、用戶體驗和企業(yè)級產(chǎn)品電商平臺三個方面展開合作，共同布局人工智能領(lǐng)域，開展底層技術(shù)合作，并針對高速互連產(chǎn)品展開聯(lián)合研發(fā)。

Gilad Shainer認(rèn)為，通過聯(lián)合實驗室，能為更多的應(yīng)用帶來Sharp的體驗與應(yīng)用機會。而Mellanox亞太區(qū)市場開發(fā)總監(jiān)劉通則透露，這也將是Switch-IB 2在國內(nèi)進行推廣的一種主要方法。

產(chǎn)品路線：從100G到200G到400G

當(dāng)然，集成Sharp的，不僅僅只有Switch-IB 2，還有Mellanox的另外三款100G產(chǎn)品。

一是ConnectX-4網(wǎng)卡，可以實現(xiàn)100G每秒，同時它的延遲是全世界最低的，0.7微秒，消息傳輸1.5億每秒。這款網(wǎng)卡支持速度也是最多的，從萬兆一直到100G，25、40、50全部都支持。

二是以太網(wǎng)設(shè)備Spectrum系列交換機，是以太網(wǎng)交換機領(lǐng)域里邊最快的一款設(shè)備，從萬兆一直到100G以太網(wǎng)。

第三是LinkX，是Mellanox的網(wǎng)線家族，其中包括了很多光模塊、銅線、光纜，里面有硅光技術(shù)。這些是成就高性能網(wǎng)絡(luò)的一個重要組成部分。

Gilad Shainer終于談到了其未來產(chǎn)品，他鄭重地說：“這是首次公布產(chǎn)品計劃。”

Mellanox端到端的200G的產(chǎn)品將會在2017年上半年問世，包括完整的網(wǎng)卡、交換機、網(wǎng)線。這些產(chǎn)品不僅僅是提供200G，還會有更大的交換容量，也就意味著更多的端口數(shù)；還會支持更多的通訊卸載。

再兩年之后，2019年，Mellanox會有下一代的產(chǎn)品，帶寬會翻倍也就是400G。“今天的Sharp只是卸載了一些集群式的通訊，將來的交換機會有更多的卸載功能，做更多的CPU現(xiàn)在完成的事情?！?/p>

吐槽Omni-Path：換湯不換藥

講完了Mellanox的技術(shù)與產(chǎn)品路線，作為市場副總裁，Gilad Shainer開始對Intel的100G產(chǎn)品Omni-Path大吐口水。當(dāng)然，作為媒體，樂意看到這種友商之間的比較，因為這對用戶市場是有益的。

Omni-Path于2015年11月由Intel推出，已成為強化型SSF的核心組件，有媒體稱，Omni-Path是“InfiniBand殺手”。從市場角度，InfiniBand也好，以太網(wǎng)也罷，再加上Omni-Path，應(yīng)該是各有各的精彩罷了。

2012年，Intel收購QLogic公司的InfiniBand部門，而InfiniBand部門的前身是PathScale公司，其產(chǎn)品名稱叫InfiniPath，是20G的InfiniBand網(wǎng)絡(luò)，基于Onload技術(shù)，完全用CPU處理；PathScale被QLogic收購后，網(wǎng)絡(luò)產(chǎn)品的名字從InfiniPath更新成TrueScale。

Mellanox的優(yōu)勢建立在InfiniBand之上，當(dāng)Omni-Path殺上門來，無疑，Mellanox不可能按兵不動。

Gilad Shainer吐槽說，Omni-Path采用的是TrueScale，一項沒有做改進的技術(shù)，只是把物理層的速度從40G提到了100G，核心沒有任何變化，當(dāng)然，再一次修改了名稱。

而Mellanox實現(xiàn)網(wǎng)絡(luò)是用的Offload的技術(shù)，也就是協(xié)議的卸載技術(shù)；英特爾是用CPU在處理網(wǎng)絡(luò)通訊，也就是Onload，“所以兩個的理念是不一樣的。”

Mellanox會繼續(xù)走協(xié)處理器這個概念，把網(wǎng)絡(luò)做成一個協(xié)處理器，做成一個智能的處理單元去來加速網(wǎng)絡(luò)速度。相反英特爾做Omni-Path會讓自己的網(wǎng)絡(luò)完全依賴于CPU，這是一個不同的路線。

Gilad Shainer展示了Offload與Onload的區(qū)別。

1.Offload所有網(wǎng)絡(luò)方面的運算處理都是用網(wǎng)絡(luò)芯片來完成，數(shù)據(jù)在移動當(dāng)中就可以做計算，所以對芯片的要求很復(fù)雜?？赡懿粫芸斓卦O(shè)計出來一款智能的網(wǎng)絡(luò)，能夠做卸載的網(wǎng)絡(luò)，它需要很多很多年的技術(shù)積累，而且芯片要做得非常復(fù)雜。而且一旦芯片設(shè)計出了一點點問題，就要重新做流片，而重新做流片的代價非常非常大，所以Mellanox的芯片設(shè)計得復(fù)雜、成本高，但是處理能力強大，因為Mellanox的芯片本身做的是計算，這也使得數(shù)據(jù)通訊更加高效。

2.Onload技術(shù)也就是英特爾的Omni-Path的技術(shù)體系里面，是崇尚CPU為核心的理念。這種理念如果從網(wǎng)絡(luò)設(shè)計來講它比較簡單，因為它實現(xiàn)的功能都是用CPU實現(xiàn)的，只是編軟件，所以相對來說，芯片的成本很低，因為它不用設(shè)計非常復(fù)雜的硬件邏輯在它的芯片里面，這是它的一個優(yōu)勢。

3.Onload的缺陷是網(wǎng)絡(luò)會吃掉它的CPU資源，因為它的所有操作都需要CPU去完成。不管是早先的InfiniPath，還是后來的TrueScale，到現(xiàn)在的Omni-Path——它這三代的名稱，但是用的技術(shù)是一模一樣的——用CPU去處理網(wǎng)絡(luò)。這是無法滿足現(xiàn)在大數(shù)據(jù)、高性能計算中通訊密集型的需求的，也是應(yīng)用沒有辦法在Onload的架構(gòu)下面去擴展的一個原因。

4.舉個例子，LS-DYNA的應(yīng)用，該軟件是在汽車制造領(lǐng)域里邊做碰撞分析的主流軟件。一個是比較小的實測案例，一個是比較大的測試數(shù)據(jù)的案例。在這兩個測試的環(huán)境下，InfiniBand領(lǐng)先Omni-Path從48%到63%。

如上圖，左邊數(shù)據(jù)級比較小的時候InfiniBand的優(yōu)勢會更大，因為當(dāng)數(shù)據(jù)集小的時候，計算需要的部分就會小于傳輸?shù)拿芗?。越小的?shù)據(jù)集它的數(shù)據(jù)傳輸?shù)南⒃叫。鼈鬏數(shù)拿芗仍礁?，所以在這種數(shù)據(jù)集的情況下，當(dāng)進行密集數(shù)據(jù)傳輸?shù)臅r候，會有更大的CPU資源耗費在網(wǎng)絡(luò)傳輸上邊，使得它的可擴展性很快就會下降下來。用英特爾的網(wǎng)絡(luò)，12個節(jié)點比10個節(jié)點還要慢。但是Mellanox還在持續(xù)地增長。

5.當(dāng)你買了便宜貨以后最終你會付出得更多。我們的設(shè)備是必須要付錢的，因為我們的芯片開發(fā)成本更高。比如你買了100萬的設(shè)備再加上15萬美金Mellanox的網(wǎng)絡(luò)，總的成本是115萬美金，但是因為我們不耗費任何的CPU，所以100萬購買了計算資源，最后還能得到100萬的計算能力，只是你花了115萬，因為15萬是我們的網(wǎng)絡(luò)設(shè)備。

花了100萬只能用到70萬，跟花80萬就能用到70萬，差別是很大的?！拔覀儾荒苋为毧紤]每一個計算單元的價格，我們要把它放成一個整體系統(tǒng)的投資回報率去考慮?！盙ilad Shainer說。

吐槽完了，Gilad Shainer最后總結(jié)說，InfiniBand網(wǎng)絡(luò)還是現(xiàn)在能夠提供給應(yīng)用最好性能的一種網(wǎng)絡(luò)，使用戶的投資回報率，或者說使CPU能夠成為真正有效的一個計算資源。而且InfiniBand不僅僅是簡單的網(wǎng)絡(luò)轉(zhuǎn)發(fā)功能，已經(jīng)變成了協(xié)處理器的角色，成為了更加智能的一個單元。

分享到

zhoub

相關(guān)推薦

近期文章

熱門標(biāo)簽