CPU和GPU負(fù)載實(shí)測(cè)數(shù)據(jù)

上圖是一個(gè)搭載4塊GPU卡服務(wù)器上運(yùn)行Alexnet神經(jīng)網(wǎng)絡(luò)的測(cè)試分析圖,從圖上我們可以很清楚的看到計(jì)算的任務(wù)主要由GPU承擔(dān),4塊GPU卡的負(fù)載基本上都接近10%,而CPU的負(fù)載率只有不到40%。由此可見(jiàn),AI計(jì)算的計(jì)算量主要都在GPU加速卡上。

?

內(nèi)存和顯存負(fù)載實(shí)測(cè)數(shù)據(jù)

同樣的測(cè)試環(huán)境,內(nèi)存容量固定時(shí),總?cè)萘啃枨箅SBatch size擴(kuò)大而增加,Alexnet模型,Batch size為256時(shí),占用CPU內(nèi)存60GB,GPU顯存9GB。

這樣看,AI計(jì)算對(duì)于CPU內(nèi)存和GPU顯存容量的需求都很大。

 

磁盤IO實(shí)測(cè)數(shù)據(jù)

通過(guò)上圖我們可以看到,磁盤IO是一次讀,多次寫,在Alexnet模型下,磁盤讀帶寬85MB/s,寫帶寬0.5MB/s。所以,在模型訓(xùn)練階段,磁盤的IO并不是AI計(jì)算的瓶頸點(diǎn)。

 

PCIE帶寬負(fù)載實(shí)測(cè)數(shù)據(jù)

最后,我們?cè)倏纯碅I計(jì)算對(duì)于PCIE帶寬的占用情況。圖上顯示,帶寬與訓(xùn)練數(shù)據(jù)規(guī)模成正比。測(cè)試中,PCIE持續(xù)讀帶寬達(dá)到5.7GB/s,峰值帶寬超過(guò)8GB/s,因此PCIE的帶寬將是AI計(jì)算的關(guān)鍵瓶頸點(diǎn)。

于是,我們可以得出幾個(gè)結(jié)論:

  1. 數(shù)據(jù)預(yù)處理階段需要提高小文件的隨機(jī)讀寫性能
  2. 模型訓(xùn)練階段需要提升并行計(jì)算能力
  3. 線上推理階段需要提升批量模型推理的吞吐效率

 

用高計(jì)算性能的CPU服務(wù)器+高性能存儲(chǔ),解決小文件隨機(jī)讀取難題

數(shù)據(jù)預(yù)處理的主要任務(wù)是處理缺失值,光滑噪聲數(shù)據(jù),識(shí)別或刪除利群點(diǎn),解決數(shù)據(jù)的不一致性。這些任務(wù)可以利用基于CPU服務(wù)器來(lái)實(shí)現(xiàn),比如浪潮SA5212M5這種最新型2U服務(wù)器,搭載最新一代英特爾至強(qiáng)可擴(kuò)展處理器,支持Intel Skylake平臺(tái)3/4/5/6/8全系處理器,支持全新的微處理架構(gòu),AVX512指令集可提供上一代2倍的FLOPs/core,多達(dá)28個(gè)內(nèi)核及56線程,計(jì)算性能可達(dá)到上一代的1.3倍,能夠快速實(shí)現(xiàn)數(shù)據(jù)的預(yù)處理任務(wù)。

在存儲(chǔ)方面,可以采用HDFS(Hadoop分布式文件系統(tǒng))存儲(chǔ)架構(gòu)來(lái)設(shè)計(jì)。HDFS是使用Java實(shí)現(xiàn)分布式的、可橫向擴(kuò)展的文件系統(tǒng),因?yàn)樯疃葘W(xué)習(xí)天生用于處理大數(shù)據(jù)任務(wù),很多場(chǎng)景下,深度學(xué)習(xí)框架需要對(duì)接HDFS。通過(guò)浪潮SA5224M4服務(wù)器組成高效、可擴(kuò)展的存儲(chǔ)集群,在滿足AI計(jì)算分布式存儲(chǔ)應(yīng)用的基礎(chǔ)上,最大可能降低整個(gè)系統(tǒng)的TCO。

浪潮SA5224M4 4U36盤位存儲(chǔ)服務(wù)器

SA5224M4一款4U36盤位的存儲(chǔ)型服務(wù)器,在4U的空間內(nèi)支持36塊大容量硬盤。并且相比傳統(tǒng)的雙路E5存儲(chǔ)服務(wù)器,功耗降低35W以上。同時(shí),通過(guò)背板Expander芯片的帶寬加速技術(shù),顯著提升大容量SATA盤的性能表現(xiàn),更適合構(gòu)建AI所需要的HDFS存儲(chǔ)系統(tǒng)。

 

用GPU服務(wù)器實(shí)現(xiàn)更快速、精準(zhǔn)的AI模型訓(xùn)練

從內(nèi)部結(jié)構(gòu)上來(lái)看,CPU中70%晶體管都是用來(lái)構(gòu)建 Cache(高速緩沖存儲(chǔ)器)和一部分控制單元,負(fù)責(zé)邏輯運(yùn)算的部分并不多,控制單元等模塊的存在都是為了保證指令能夠一條接一條的有序執(zhí)行,這種通用性結(jié)構(gòu)對(duì)于傳統(tǒng)的編程計(jì)算模式非常適合,但對(duì)于并不需要太多的程序指令,卻需要海量數(shù)據(jù)運(yùn)算的深度學(xué)習(xí)計(jì)算需求,這種結(jié)構(gòu)就顯得有心無(wú)力了。

與 CPU 少量的邏輯運(yùn)算單元相比,GPU設(shè)備整個(gè)就是一個(gè)龐大的計(jì)算矩陣,動(dòng)輒具有數(shù)以千計(jì)的計(jì)算核心、可實(shí)現(xiàn) 10-100 倍應(yīng)用吞吐量,而且它還支持對(duì)深度學(xué)習(xí)至關(guān)重要的并行計(jì)算能力,可以比傳統(tǒng)處理器更加快速,大大加快了訓(xùn)練過(guò)程。

根據(jù)不同規(guī)模的AI模型訓(xùn)練場(chǎng)景,可能會(huì)用到2卡、4卡、8卡甚至到64卡以上的AI計(jì)算集群。在AI計(jì)算服務(wù)器方面,浪潮也擁有業(yè)界最全的產(chǎn)品陣列。既擁有NF5280M5、AGX-2、NF6248等傳統(tǒng)的GPU/KNL服務(wù)器以及FPGA卡等,也包含了創(chuàng)新的GX4、SR-AI整機(jī)柜服務(wù)器等獨(dú)立加速計(jì)算模塊。

浪潮AI計(jì)算服務(wù)器陣列

其中,SR-AI整機(jī)柜服務(wù)器面向超大規(guī)模線下模型訓(xùn)練,能夠?qū)崿F(xiàn)單節(jié)點(diǎn)16卡、單物理集群64卡的超高密擴(kuò)展能力;GX4是能夠覆蓋全AI應(yīng)用場(chǎng)景的創(chuàng)新架構(gòu)產(chǎn)品,可以通過(guò)標(biāo)準(zhǔn)機(jī)架服務(wù)器連接協(xié)處理器計(jì)算擴(kuò)展模塊的形式完成計(jì)算性能擴(kuò)展,滿足AI云、深度學(xué)習(xí)模型訓(xùn)練和線上推理等各種AI應(yīng)用場(chǎng)景對(duì)計(jì)算架構(gòu)性能、功耗的不同需求;AGX-2是2U8 NVLink? GPU全球密度最高、性能最強(qiáng)的AI平臺(tái),面向需要更高空間密度比AI算法和應(yīng)用服務(wù)商。

根據(jù)業(yè)務(wù)應(yīng)用的需要,選擇不同規(guī)模的GPU服務(wù)器集群,從而平衡計(jì)算能力和成本,達(dá)到最優(yōu)的TCO和最佳的計(jì)算效率。

 

用FPGA來(lái)實(shí)現(xiàn)更低延遲、更高吞吐量的線上推理

GPU在深度學(xué)習(xí)算法模型訓(xùn)練上非常高效,但在推理時(shí)一次性只能對(duì)于一個(gè)輸入項(xiàng)進(jìn)行處理,并行計(jì)算的優(yōu)勢(shì)不能發(fā)揮出來(lái)。而FPGA正是強(qiáng)在推斷。大幅提升推斷效率的同時(shí),還要最小限度損失精確性,這正是FPGA的強(qiáng)項(xiàng)。

業(yè)界支持OpenCL的最高密度最高性能的FPGA-浪潮F10A

以浪潮F10A為例,這是目前業(yè)界支持OpenCL的最高密度最高性能的FPGA加速設(shè)備,單芯片峰值運(yùn)算能力達(dá)到了1.5TFlops,功耗卻只需35W,每瓦特性能到42GFlops。

測(cè)試數(shù)據(jù)顯示,在語(yǔ)音識(shí)別應(yīng)用下,浪潮F10A較CPU性能加速2.87倍,而功耗相當(dāng)于CPU的15.7%,性能功耗比提升18倍。在圖片識(shí)別分類應(yīng)用上,相比GPU能夠提升10倍以上。

通過(guò)CPU、GPU、FPGA等不同計(jì)算設(shè)備的組合,充分發(fā)揮各自在不同方向的優(yōu)勢(shì),才能夠形成一套高效的AI計(jì)算平臺(tái)。然后選擇一個(gè)合適的框架,運(yùn)用最優(yōu)的算法,就能夠?qū)崿F(xiàn)人工智能應(yīng)用的快速落地和精準(zhǔn)服務(wù)。

分享到

zhangnn

相關(guān)推薦