AI超級(jí)計(jì)算機(jī)NF5288M5

AI訓(xùn)練的“三座大山”–效率、彈性和密度

人工智能發(fā)端于上世紀(jì)五十年代,經(jīng)歷了幾次繁榮與低谷,直到AlphaGo贏得世界圍棋比賽,“人工智能”寫(xiě)進(jìn)今年的政府工作報(bào)告中,人工智能熱潮徹底爆發(fā)。就在昨天,國(guó)務(wù)院首次印發(fā)《新一代人工智能發(fā)展規(guī)劃》,將人工智能提到了國(guó)家戰(zhàn)略高度。AI訓(xùn)練的快速發(fā)展對(duì)計(jì)算力的需求呈井噴式發(fā)展,然而當(dāng)前市場(chǎng)上的AI計(jì)算平臺(tái)普遍面臨著通訊效率低下、平臺(tái)架構(gòu)僵化、計(jì)算密度低等問(wèn)題。

異構(gòu)通訊開(kāi)銷嚴(yán)重影響計(jì)算效率:在AI訓(xùn)練中,采用CPU+GPU異構(gòu)計(jì)算架構(gòu),通常需要以CPU為訓(xùn)練模型下發(fā)指令,給GPU“喂”數(shù)據(jù),控制計(jì)算過(guò)程,提供邏輯判斷,控制外部設(shè)備等。而GPU則需要接收來(lái)自CPU的數(shù)據(jù),提供高性能的并行計(jì)算,將結(jié)果返回給CPU。這一來(lái)一回看似合理,但是實(shí)際上CPU和GPU分擔(dān)著整個(gè)計(jì)算任務(wù)中不同的部分,他們之間需要頻繁的通訊,而一旦通訊頻次過(guò)高,CPU和GPU就需要花費(fèi)大量的時(shí)間進(jìn)行相互通訊,嚴(yán)重影響整個(gè)計(jì)算架構(gòu)的效率。

多樣化AI場(chǎng)景亟需彈性異構(gòu)平臺(tái):目前市面上成熟的AI框架有十多種,像標(biāo)準(zhǔn)的圖像、語(yǔ)音、語(yǔ)意理解等神經(jīng)模型的數(shù)量則更為龐大。不同的AI框架包含了不同的模型和算法,比如SoftMax回歸、聚類、決策樹(shù)或梯度策略等,產(chǎn)生不同規(guī)模的訓(xùn)練數(shù)據(jù)。如針對(duì)大規(guī)模被標(biāo)記的圖片、語(yǔ)音信息,有文字信息的圖片等,訓(xùn)練場(chǎng)景會(huì)變得十分多樣化。多樣化的AI訓(xùn)練場(chǎng)景對(duì)異構(gòu)計(jì)算的服務(wù)器要求必然也各不相同,有的需要更多的GPU介入進(jìn)行加速,有的則更依賴CPU和GPU進(jìn)行相互迭代,有的需要大量的數(shù)據(jù)并行,有的需要進(jìn)行模型并行,由此產(chǎn)生了對(duì)CPU和GPU計(jì)算架構(gòu)的多樣化需求。

計(jì)算密度沒(méi)有最高只有更高:普通的AI圖片聚類訓(xùn)練通常需要幾十萬(wàn)個(gè)樣本進(jìn)行十幾萬(wàn)次訓(xùn)練迭代,而面向自動(dòng)駕駛或人員行為分析識(shí)別等應(yīng)用時(shí),訓(xùn)練量會(huì)呈幾何數(shù)增加。為了保證模型能在有限的時(shí)間內(nèi)做到足夠收斂,某些模型甚至需要超過(guò)200片GPU卡以AI服務(wù)器集群的方式并行。為節(jié)省寶貴的數(shù)據(jù)中心空間,提高服務(wù)器的密度成為不二手段,更高密度的AI服務(wù)器不但節(jié)約了數(shù)據(jù)中心的基礎(chǔ)設(shè)施,更大規(guī)模的機(jī)內(nèi)互連也對(duì)網(wǎng)絡(luò)等設(shè)備的依賴大大降低。

浪潮NF5288M5–AI計(jì)算加速器

為了提升計(jì)算效率、滿足多樣化AI場(chǎng)景需求,浪潮NF5288M5另辟蹊徑,變異構(gòu)為同構(gòu),消除了異構(gòu)通信帶來(lái)降低計(jì)算效率的煩惱。此外,為了更大幅度地提升服務(wù)器計(jì)算效率,滿足AI應(yīng)用對(duì)計(jì)算力的需求,NF5288M5在架構(gòu)設(shè)計(jì)中將計(jì)算密度做到了極致。而為了滿足客戶對(duì)彈性架構(gòu)平臺(tái)的需求,NF5288M5創(chuàng)新地采用PCIe連接資源,實(shí)現(xiàn)更加靈活的拓?fù)洹?/p>

浪潮NF5288M5

極致效率、異構(gòu)變同構(gòu):NF5288M5拋棄傳統(tǒng)異構(gòu)計(jì)算架構(gòu)模式,在2U空間內(nèi)支持部署8塊NVLink或PCI-E 接口的NVIDIA? Tesla? P100 GPU,可以在不依賴CPU的前提下,實(shí)現(xiàn)機(jī)內(nèi)點(diǎn)到點(diǎn)通訊,減少了異構(gòu)通訊的次數(shù);并在業(yè)界率先支持NVLink 2.0和最新發(fā)布的NVIDIA? Tesla?系列GPU,可以實(shí)現(xiàn)GPU間高達(dá)300GB/s的互連帶寬,并提供極低的延遲,讓多塊GPU并行的效率大幅提升超過(guò)60%。將GPU同構(gòu),把NF5288M5的并行計(jì)算效率盡可能推到極限。

NF5288M5性能對(duì)比

極致密度、更高計(jì)算力:與浪潮支持2U4卡的NF5288M4對(duì)比測(cè)試,NF5288M5采用P100的Linpack浮點(diǎn)運(yùn)算性能達(dá)29.33TFLOPS,是同樣采用P100 NF5288M4的2.47倍;在AI深度學(xué)習(xí)模型訓(xùn)練上,當(dāng)采用TensorFlow框架和GoogLeNet模型,NF5288M5處理速度為每秒1165幅圖片,是搭配4片Tesla? M40的NF5288M4性能的2.49倍。在實(shí)現(xiàn)了性能和效率雙提升的同時(shí),機(jī)箱仍然保持了和上一代一樣的2U高度,實(shí)現(xiàn)了最高的GPU卡部署密度。在超大規(guī)模AI訓(xùn)練集群或HPC集群引用時(shí),可以幫助客戶節(jié)省數(shù)據(jù)中心的基礎(chǔ)設(shè)施資源,更有利于數(shù)據(jù)中心的空間分配。

極致靈活、彈性計(jì)算拓?fù)洌篘F5288M5采用PCIe線纜的方式連接CPU和GPU資源,可以靈活調(diào)整CPU的連接帶寬和連接數(shù)量,在應(yīng)對(duì)不同的AI應(yīng)用時(shí),更好的做到PCIe資源按需分配。靈活的計(jì)算架構(gòu)可以讓一顆或兩顆CPU管理8顆GPU,也可以通過(guò)GPU擴(kuò)展box的方式,實(shí)現(xiàn)最大16GPU的縱向擴(kuò)展。而服務(wù)器提供的PCIe I/O,8個(gè)U.2插槽, 或多達(dá)4塊100Gbps InfiniBand網(wǎng)卡,都可以根據(jù)計(jì)算靈活調(diào)整拓?fù)?。NF5288M5彈性的異構(gòu)平臺(tái),足以支撐多樣化的AI場(chǎng)景。

極致設(shè)計(jì)背后帶來(lái)的極限挑戰(zhàn)

NF5288M5通過(guò)優(yōu)秀的設(shè)計(jì),實(shí)現(xiàn)了性能、靈活性和密度的多維度增強(qiáng),然而這背后帶來(lái)的卻是對(duì)互連、供電和散熱設(shè)計(jì)的三大極限挑戰(zhàn)。如何在一個(gè)系統(tǒng)中實(shí)現(xiàn)GPU卡的靈活配置,滿足高達(dá)3000W的供電需求,并在有限的空間內(nèi)解決散熱,成為了開(kāi)發(fā)這款產(chǎn)品的三大難題 。在此就給大家一一揭秘NF5288M5是如何做到的。

300GB/s聚合帶寬的Cube Mesh拓?fù)?/p>

互連挑戰(zhàn):有別于業(yè)界異構(gòu)服務(wù)器CPU和GPU緊耦合的互連方式,NF5288M5采用解耦式設(shè)計(jì),不但提供靈活性,同時(shí)還支持高達(dá)300GB/s的NVIDIA? NVLink?GPU互連帶寬。浪潮結(jié)合刀片服務(wù)器的設(shè)計(jì)思路,把這些組件緊湊的布局到2U空間中,并基于8路服務(wù)器的設(shè)計(jì)經(jīng)驗(yàn),確保NVLink?的走線長(zhǎng)度、信號(hào)都處在最佳狀態(tài),以保證GPU的性能發(fā)揮。

供電挑戰(zhàn):8塊功耗高達(dá)300W的GPU,以及服務(wù)器內(nèi)其他的計(jì)算、存儲(chǔ)和I/O資源,整機(jī)的功耗需求達(dá)到3000W,供電如何走線成為最大的挑戰(zhàn)。NF5288M5借鑒了浪潮在整機(jī)柜服務(wù)器的供電設(shè)計(jì)方式,對(duì)單服務(wù)器內(nèi)部采用無(wú)線纜供電設(shè)計(jì),減少了供電線纜對(duì)空間的占用以及對(duì)散熱氣流的影響。在保證供電能力的同時(shí),對(duì)空間、散熱的影響降到最低。

NF5288M5散熱風(fēng)道設(shè)計(jì)

散熱挑戰(zhàn):3000W的供電,意味著3000W的峰值發(fā)熱量,6倍于傳統(tǒng)的2U服務(wù)器,散熱成為一個(gè)繞不過(guò)的難題。NF5288M5在設(shè)計(jì)之初,從布局、風(fēng)道和氣流多個(gè)方面統(tǒng)籌進(jìn)行考慮。低發(fā)熱量組件前置,高發(fā)熱量組件后置,避免局部熱點(diǎn),讓空氣在服務(wù)器的內(nèi)部均衡的升溫,再通過(guò)高速風(fēng)扇將熱量快速帶出服務(wù)器,最終NF5288M5可以和傳統(tǒng)服務(wù)器一樣工作在35℃的環(huán)溫下。并且為了支持低PUE數(shù)據(jù)中心,還可以配置氣液混合散熱,甚至可以支持45℃的高環(huán)溫運(yùn)行。

100%的計(jì)算密度提升、960TFlops的計(jì)算力、200倍的單機(jī)AI訓(xùn)練性能,NF5288M5無(wú)愧是一款最高密度、最高性能的AI服務(wù)器,無(wú)論是在面向人工智能訓(xùn)練還是HPC應(yīng)用時(shí),都將為用戶提供極致性能體驗(yàn)。和傳統(tǒng)概念的高性能集群相比,GPU同構(gòu)、靈活拓?fù)浜统呙芏鹊恼w架構(gòu),讓?xiě)?yīng)用和硬件的結(jié)合,變得更為高效和緊密。

分享到

songjy

相關(guān)推薦