近日,Mellanox市場(chǎng)副總裁Gilad Shainer向媒體首次公布了其產(chǎn)品路線(xiàn)圖,不僅僅將于2017年推出200Gb/s的產(chǎn)品,還透露計(jì)劃于2019年推出400Gb/s的下一代新品。Gilad Shainer業(yè)沒(méi)有忘記吐槽老對(duì)手Intel Omni-Path,當(dāng)然,這些吐槽建立在各種數(shù)據(jù)之上。

高性能計(jì)算的演變:Co-Design的產(chǎn)生

所謂Co-Design,在此處就是網(wǎng)絡(luò)、存儲(chǔ)、軟件等系統(tǒng)及設(shè)備的協(xié)同設(shè)計(jì),其目標(biāo),是通過(guò)一種Mellanox稱(chēng)之為Sharp的技術(shù),卸載CPU的部分操作,實(shí)現(xiàn)數(shù)據(jù)傳輸過(guò)程中的計(jì)算,從而加速計(jì)算進(jìn)程。

要講清楚Sharp,就有必要從高性能計(jì)算開(kāi)始。

20年來(lái),高性能計(jì)算的發(fā)展已經(jīng)經(jīng)過(guò)了多次迭代。從最開(kāi)始的SMP小型機(jī),到集群式系統(tǒng),以及CPU從單核到多核的轉(zhuǎn)變,大幅提升了高性能計(jì)算的性能。

雖然多核可以滿(mǎn)足同時(shí)計(jì)算,但是它并沒(méi)有辦法把一個(gè)應(yīng)用程序運(yùn)行的時(shí)間縮短。因?yàn)镃PU的主頻是固定的,這種方式發(fā)展應(yīng)用程序并不能一直地向上擴(kuò)展。

高性能計(jì)算的演變

也就是說(shuō),之前的計(jì)算環(huán)境都是以CPU為核心的,但是CPU為核心的計(jì)算環(huán)境很容易達(dá)到性能的瓶頸。因?yàn)楝F(xiàn)在有越來(lái)越多的數(shù)據(jù),而且數(shù)據(jù)的處理要求更快、更實(shí)時(shí)。但是傳統(tǒng)的方式是CPU需要等待數(shù)據(jù)過(guò)來(lái)才能處理,這就是計(jì)算的瓶頸所在。

所以Co-Design的理念應(yīng)運(yùn)而生,就是硬件、軟件與系統(tǒng)來(lái)合作開(kāi)發(fā)面對(duì)未來(lái)的高性能計(jì)算需求,解決性能的瓶頸問(wèn)題。在Co-Design環(huán)境下,CPU只是計(jì)算單元之一,存儲(chǔ)、網(wǎng)絡(luò),在整個(gè)計(jì)算里面起到的角色越來(lái)越重要。

Co-Design原理

基于Co-Design,可以實(shí)現(xiàn)數(shù)據(jù)在網(wǎng)絡(luò)中的計(jì)算,也就是數(shù)據(jù)在移動(dòng)過(guò)程中就已經(jīng)計(jì)算完畢了,所以CPU要做的事情已經(jīng)大幅地下降,這就可以整體地縮減完成一個(gè)數(shù)據(jù)分析或者是計(jì)算的時(shí)間。

Gilad Shainer說(shuō):“通過(guò)在網(wǎng)絡(luò)當(dāng)中完成計(jì)算,每一個(gè)交換機(jī)都是協(xié)處理器,都能做計(jì)算。當(dāng)數(shù)據(jù)在傳輸?shù)倪^(guò)程中,我們已經(jīng)完成了很多需要計(jì)算的工作。這是加速效率的一個(gè)最有效的途徑。

從網(wǎng)絡(luò)延遲的發(fā)展看Co-Design的必要性

Gilad Shainer還用實(shí)際計(jì)算中網(wǎng)絡(luò)延遲的發(fā)展來(lái)說(shuō)明Co-Design的必要性。

10年前,一個(gè)網(wǎng)絡(luò)中硬件的延遲可能是10微秒,用在通訊中,加上軟件之后,總的通訊延遲是100微秒,也就是說(shuō),加載了軟件后,網(wǎng)絡(luò)的負(fù)荷加重了。

今天,經(jīng)過(guò)CPU不斷地提速,網(wǎng)絡(luò)的延遲已經(jīng)從100微秒下降到10微秒。其中,硬件從10微秒下降到0.1微秒。

但是,硬件還能否像以前一樣從10微秒下降成0.1微秒?“這是100倍的提升,是不可能的,因?yàn)橛布呀?jīng)達(dá)到了一個(gè)極限。”Gilad Shainer說(shuō)。

今天,全世界最快的硬件是90納秒,也就是小于100個(gè)納秒,將來(lái)Mellanox可能會(huì)做到50納秒、80納秒、70納秒,但是70、80對(duì)90來(lái)說(shuō)只是提高了10到20納秒,很客觀地來(lái)講,這對(duì)應(yīng)用程序是可以忽略不計(jì)的。

打破應(yīng)用延遲壁壘

硬件通訊延遲的提升,應(yīng)用程序卻看不到效果。但是應(yīng)用在軟件層帶來(lái)的通訊負(fù)荷相反卻很大,它還有10微秒,如果下降成1微秒,還有10倍的差距,而且它跟納秒級(jí)還有很大的一個(gè)量級(jí)的差距。

所以,除了再進(jìn)一步地提升硬件的性能之外,在軟件,在整個(gè)通訊層上要去考慮如何做協(xié)同的設(shè)計(jì),讓整個(gè)通訊層的時(shí)間能夠大幅下降,不能僅僅關(guān)注于在網(wǎng)絡(luò)的本身。

“我們必須要打開(kāi)自己的思路,讓整個(gè)通訊的架構(gòu)有一個(gè)轉(zhuǎn)變。這就是Co-design,在數(shù)據(jù)移動(dòng)當(dāng)中完成該完成的計(jì)算工作,來(lái)降低整個(gè)通訊的時(shí)間?!盙ilad Shainer認(rèn)為,“現(xiàn)在的情況是Mellanox正在朝這個(gè)方向走,很快就會(huì)達(dá)到這個(gè)程度。”

集成Sharp技術(shù)的Switch-IB 2交換機(jī)

賣(mài)了半天關(guān)子,Gilad Shainer表示,這種網(wǎng)絡(luò)完成計(jì)算的工作,Mellanox暫且稱(chēng)之為“Sharp”,Sharp已經(jīng)在2015年6月發(fā)布的全球首款智能交換機(jī)Switch-IB 2中得到應(yīng)用。

Switch-IB 2具有全世界最快的延遲的速度,只有90納秒,支持動(dòng)態(tài)路由等等。除此之外,智能交換機(jī)的意義是將原來(lái)在高性能計(jì)算里用得最多的靠CPU來(lái)完成的MPI的操作,轉(zhuǎn)移交換機(jī)里完成。從而大幅地提升MPI應(yīng)用程序的性能。

“這是Co-design非常重要的一步,也是第一步,把集群的通訊移到交換機(jī)里去完成。這項(xiàng)技術(shù)我們起名叫Sharp?!?/p>

Sharp不僅僅能用于高性能計(jì)算,還可以應(yīng)用于深度學(xué)習(xí)、大數(shù)據(jù)分析,所有涉及到密集數(shù)據(jù)傳輸?shù)膽?yīng)用都可以借用到Sharp技術(shù),當(dāng)數(shù)據(jù)匯集在交換機(jī)的時(shí)候,交換機(jī)就會(huì)完成一些計(jì)算。

約一年后的5月17日,Mellanox與京東簽署全面合作框架協(xié)議,雙方共同建立“JD-Mellanox聯(lián)合創(chuàng)新實(shí)驗(yàn)室”,將在技術(shù)創(chuàng)新、用戶(hù)體驗(yàn)和企業(yè)級(jí)產(chǎn)品電商平臺(tái)三個(gè)方面展開(kāi)合作,共同布局人工智能領(lǐng)域,開(kāi)展底層技術(shù)合作,并針對(duì)高速互連產(chǎn)品展開(kāi)聯(lián)合研發(fā)。

Gilad Shainer認(rèn)為,通過(guò)聯(lián)合實(shí)驗(yàn)室,能為更多的應(yīng)用帶來(lái)Sharp的體驗(yàn)與應(yīng)用機(jī)會(huì)。而Mellanox亞太區(qū)市場(chǎng)開(kāi)發(fā)總監(jiān)劉通則透露,這也將是Switch-IB 2在國(guó)內(nèi)進(jìn)行推廣的一種主要方法。

產(chǎn)品路線(xiàn):從100G到200G到400G

當(dāng)然,集成Sharp的,不僅僅只有Switch-IB 2,還有Mellanox的另外三款100G產(chǎn)品。

一是ConnectX-4網(wǎng)卡,可以實(shí)現(xiàn)100G每秒,同時(shí)它的延遲是全世界最低的,0.7微秒,消息傳輸1.5億每秒。這款網(wǎng)卡支持速度也是最多的,從萬(wàn)兆一直到100G,25、40、50全部都支持。

二是以太網(wǎng)設(shè)備Spectrum系列交換機(jī),是以太網(wǎng)交換機(jī)領(lǐng)域里邊最快的一款設(shè)備,從萬(wàn)兆一直到100G以太網(wǎng)。

第三是LinkX,是Mellanox的網(wǎng)線(xiàn)家族,其中包括了很多光模塊、銅線(xiàn)、光纜,里面有硅光技術(shù)。這些是成就高性能網(wǎng)絡(luò)的一個(gè)重要組成部分。

100G產(chǎn)品線(xiàn)

Gilad Shainer終于談到了其未來(lái)產(chǎn)品,他鄭重地說(shuō):“這是首次公布產(chǎn)品計(jì)劃。”

Mellanox端到端的200G的產(chǎn)品將會(huì)在2017年上半年問(wèn)世,包括完整的網(wǎng)卡、交換機(jī)、網(wǎng)線(xiàn)。這些產(chǎn)品不僅僅是提供200G,還會(huì)有更大的交換容量,也就意味著更多的端口數(shù);還會(huì)支持更多的通訊卸載。

再兩年之后,2019年,Mellanox會(huì)有下一代的產(chǎn)品,帶寬會(huì)翻倍也就是400G。“今天的Sharp只是卸載了一些集群式的通訊,將來(lái)的交換機(jī)會(huì)有更多的卸載功能,做更多的CPU現(xiàn)在完成的事情?!?/p>

高性能計(jì)算的案例

深度學(xué)習(xí)案例
吐槽Omni-Path:換湯不換藥

講完了Mellanox的技術(shù)與產(chǎn)品路線(xiàn),作為市場(chǎng)副總裁,Gilad Shainer開(kāi)始對(duì)Intel的100G產(chǎn)品Omni-Path大吐口水。當(dāng)然,作為媒體,樂(lè)意看到這種友商之間的比較,因?yàn)檫@對(duì)用戶(hù)市場(chǎng)是有益的。

Omni-Path于2015年11月由Intel推出,已成為強(qiáng)化型SSF的核心組件,有媒體稱(chēng),Omni-Path是“InfiniBand殺手”。從市場(chǎng)角度,InfiniBand也好,以太網(wǎng)也罷,再加上Omni-Path,應(yīng)該是各有各的精彩罷了。

2012年,Intel收購(gòu)QLogic公司的InfiniBand部門(mén),而InfiniBand部門(mén)的前身是PathScale公司,其產(chǎn)品名稱(chēng)叫InfiniPath,是20G的InfiniBand網(wǎng)絡(luò),基于Onload技術(shù),完全用CPU處理;PathScale被QLogic收購(gòu)后,網(wǎng)絡(luò)產(chǎn)品的名字從InfiniPath更新成TrueScale。

Mellanox的優(yōu)勢(shì)建立在InfiniBand之上,當(dāng)Omni-Path殺上門(mén)來(lái),無(wú)疑,Mellanox不可能按兵不動(dòng)。

Gilad Shainer吐槽說(shuō),Omni-Path采用的是TrueScale,一項(xiàng)沒(méi)有做改進(jìn)的技術(shù),只是把物理層的速度從40G提到了100G,核心沒(méi)有任何變化,當(dāng)然,再一次修改了名稱(chēng)。

而Mellanox實(shí)現(xiàn)網(wǎng)絡(luò)是用的Offload的技術(shù),也就是協(xié)議的卸載技術(shù);英特爾是用CPU在處理網(wǎng)絡(luò)通訊,也就是Onload,“所以?xún)蓚€(gè)的理念是不一樣的?!?/p>

Mellanox會(huì)繼續(xù)走協(xié)處理器這個(gè)概念,把網(wǎng)絡(luò)做成一個(gè)協(xié)處理器,做成一個(gè)智能的處理單元去來(lái)加速網(wǎng)絡(luò)速度。相反英特爾做Omni-Path會(huì)讓自己的網(wǎng)絡(luò)完全依賴(lài)于CPU,這是一個(gè)不同的路線(xiàn)。

Offload與Onload

Gilad Shainer展示了Offload與Onload的區(qū)別。

1.Offload所有網(wǎng)絡(luò)方面的運(yùn)算處理都是用網(wǎng)絡(luò)芯片來(lái)完成,數(shù)據(jù)在移動(dòng)當(dāng)中就可以做計(jì)算,所以對(duì)芯片的要求很復(fù)雜??赡懿粫?huì)很快地設(shè)計(jì)出來(lái)一款智能的網(wǎng)絡(luò),能夠做卸載的網(wǎng)絡(luò),它需要很多很多年的技術(shù)積累,而且芯片要做得非常復(fù)雜。而且一旦芯片設(shè)計(jì)出了一點(diǎn)點(diǎn)問(wèn)題,就要重新做流片,而重新做流片的代價(jià)非常非常大,所以Mellanox的芯片設(shè)計(jì)得復(fù)雜、成本高,但是處理能力強(qiáng)大,因?yàn)镸ellanox的芯片本身做的是計(jì)算,這也使得數(shù)據(jù)通訊更加高效。

2.Onload技術(shù)也就是英特爾的Omni-Path的技術(shù)體系里面,是崇尚CPU為核心的理念。這種理念如果從網(wǎng)絡(luò)設(shè)計(jì)來(lái)講它比較簡(jiǎn)單,因?yàn)樗鼘?shí)現(xiàn)的功能都是用CPU實(shí)現(xiàn)的,只是編軟件,所以相對(duì)來(lái)說(shuō),芯片的成本很低,因?yàn)樗挥迷O(shè)計(jì)非常復(fù)雜的硬件邏輯在它的芯片里面,這是它的一個(gè)優(yōu)勢(shì)。

3.Onload的缺陷是網(wǎng)絡(luò)會(huì)吃掉它的CPU資源,因?yàn)樗乃胁僮鞫夹枰狢PU去完成。不管是早先的InfiniPath,還是后來(lái)的TrueScale,到現(xiàn)在的Omni-Path——它這三代的名稱(chēng),但是用的技術(shù)是一模一樣的——用CPU去處理網(wǎng)絡(luò)。這是無(wú)法滿(mǎn)足現(xiàn)在大數(shù)據(jù)、高性能計(jì)算中通訊密集型的需求的,也是應(yīng)用沒(méi)有辦法在Onload的架構(gòu)下面去擴(kuò)展的一個(gè)原因。

4.舉個(gè)例子,LS-DYNA的應(yīng)用,該軟件是在汽車(chē)制造領(lǐng)域里邊做碰撞分析的主流軟件。一個(gè)是比較小的實(shí)測(cè)案例,一個(gè)是比較大的測(cè)試數(shù)據(jù)的案例。在這兩個(gè)測(cè)試的環(huán)境下,InfiniBand領(lǐng)先Omni-Path從48%到63%。

LS-DYNA

如上圖,左邊數(shù)據(jù)級(jí)比較小的時(shí)候InfiniBand的優(yōu)勢(shì)會(huì)更大,因?yàn)楫?dāng)數(shù)據(jù)集小的時(shí)候,計(jì)算需要的部分就會(huì)小于傳輸?shù)拿芗?。越小的?shù)據(jù)集它的數(shù)據(jù)傳輸?shù)南⒃叫?,它傳輸?shù)拿芗仍礁撸栽谶@種數(shù)據(jù)集的情況下,當(dāng)進(jìn)行密集數(shù)據(jù)傳輸?shù)臅r(shí)候,會(huì)有更大的CPU資源耗費(fèi)在網(wǎng)絡(luò)傳輸上邊,使得它的可擴(kuò)展性很快就會(huì)下降下來(lái)。用英特爾的網(wǎng)絡(luò),12個(gè)節(jié)點(diǎn)比10個(gè)節(jié)點(diǎn)還要慢。但是Mellanox還在持續(xù)地增長(zhǎng)。

5.當(dāng)你買(mǎi)了便宜貨以后最終你會(huì)付出得更多。我們的設(shè)備是必須要付錢(qián)的,因?yàn)槲覀兊男酒_(kāi)發(fā)成本更高。比如你買(mǎi)了100萬(wàn)的設(shè)備再加上15萬(wàn)美金Mellanox的網(wǎng)絡(luò),總的成本是115萬(wàn)美金,但是因?yàn)槲覀儾缓馁M(fèi)任何的CPU,所以100萬(wàn)購(gòu)買(mǎi)了計(jì)算資源,最后還能得到100萬(wàn)的計(jì)算能力,只是你花了115萬(wàn),因?yàn)?5萬(wàn)是我們的網(wǎng)絡(luò)設(shè)備。

ROI

花了100萬(wàn)只能用到70萬(wàn),跟花80萬(wàn)就能用到70萬(wàn),差別是很大的?!拔覀儾荒苋为?dú)考慮每一個(gè)計(jì)算單元的價(jià)格,我們要把它放成一個(gè)整體系統(tǒng)的投資回報(bào)率去考慮。”Gilad Shainer說(shuō)。

吐槽完了,Gilad Shainer最后總結(jié)說(shuō),InfiniBand網(wǎng)絡(luò)還是現(xiàn)在能夠提供給應(yīng)用最好性能的一種網(wǎng)絡(luò),使用戶(hù)的投資回報(bào)率,或者說(shuō)使CPU能夠成為真正有效的一個(gè)計(jì)算資源。而且InfiniBand不僅僅是簡(jiǎn)單的網(wǎng)絡(luò)轉(zhuǎn)發(fā)功能,已經(jīng)變成了協(xié)處理器的角色,成為了更加智能的一個(gè)單元。

 

 

分享到

zhoub

相關(guān)推薦