英特爾至強融核Xeon Phi

首先Xeon Phi是基于集成眾核(MIC)架構(gòu)的也就是Intel Larrabee GPU。 Xeon Phi的制造工藝采用了Intel當前最先進的22nm 3-D柵極晶體管。對于Linux操作系統(tǒng),Xeon Phi是可以不依賴傳統(tǒng)Xeon CPU直接運行的,但BIOS等方面還需要做一些小的改動,為了兼容大量傳統(tǒng)x86應用,目前還沒有推出這樣的平臺。

NVIDIA Tesla K20X:

NVIDIA GPGPU Tesla K20X

今年TOP500的冠軍泰坦所使用的GPU加速器就是Tesla K20X,Tesla K20系列是基于NVIDIA的 Kepler計算架構(gòu)。采用SMX流式多處理器。除此之外通過增加四倍數(shù)量的CUDA架構(gòu)核心來實現(xiàn)SMX的節(jié)能效果,同時還降低了每個核心以及GPU電源門控零件在閑置時的時鐘頻率,最大限度增大了專門用于并行處理核心而非控制邏輯的GPU區(qū)域。

優(yōu)勢對比

性能方面

NVIDIA Tesla K20X:

Tesla K20X屏蔽了1組SMX單元,剩下14組SMX,CUDA計算核心相應的減少為2688個,不過保存了384bit完整的顯存位寬,配備的是6GB GDDR5顯存,顯存頻率為5200MHz。由于要面對大核心功耗、良率、發(fā)熱的問題,Tesla K20X核心頻率預設(shè)并不太高,為732MHz,單精度和雙精度浮點計算性能分別達到了3.95 TFlops和1.31TFlops,比例為1:3。

Xeon Phi:

在Xeon Phi coprocessor 5110P身上我們更多的看到的還是x86的影子,產(chǎn)品雖然使用了多達60個計算核心,當然架構(gòu)和流水級數(shù)的大幅削減,產(chǎn)品的核心頻率并不會像桌面產(chǎn)品那 樣動輒3GHz以上,只有區(qū)區(qū)1.053GHz,但是和桌面產(chǎn)品相比卻有著更高的執(zhí)行效率,雙精度計算性能也突破了1TFlops,為 1.053TFlops。

編程方面

Xeon Phi最大優(yōu)勢就是在使用x86架構(gòu)的并行計算時不需要對代碼進行大規(guī)模改寫,只需要對編譯器和Runtime等進行調(diào)整即可順利使用Xeon Phi進行加速。Intel指出相對NVIDIA的CUDA或者OpenCL等異構(gòu)計算道路,一些研究機構(gòu)可以不用重寫它們的x86應用。

NICS的MIC架構(gòu)初步試驗結(jié)果

Xeon Phi的推出無疑是對NVIDIA GPGPU代表的異構(gòu)計算構(gòu)成了威脅,那么有了Xeon Phi之后我們真的不再需要GPGPU了么?

回答是否定的,Intel在Xeon Phi中加入了新的512bit寬度ZMM寄存器指令集,使得Xeon Phi的矢量單元(vector unit)和其他所有Intel處理器產(chǎn)品都不相同,這意味著Xeon Phi系列產(chǎn)品和其他Intel CPU在二進制代碼上實際是不兼容的。為 Xeon Phi所編寫、編譯的代碼不能在其余CPU上運行,反之亦然:為SIMD大量優(yōu)化的代碼對Xeon Phi同樣沒有意義。此外Intel還重申Xeon Phi是一款協(xié)處理器,需要CPU的輔助才能發(fā)揮應有的作用,從模式上來說已經(jīng)和NVIDIA的Tesla加速卡類似,偏離了原有的設(shè)想。

總結(jié)

以上解釋與說明只指向一個事實:在MIC架構(gòu)上編寫應用并不比走CUDA/OpenCL GPGPU的道路工作量小。即使是號稱通用性最強的OpenCL,代碼也必須根據(jù)硬件的架構(gòu)特征所大量的優(yōu)化與改動,否則得到的性能數(shù)據(jù)毫無實際意義。聯(lián) 系到目前的實際情況,毫無疑問NVIDIA的CUDA無論性能還是走在了市場的最先端,而OpenCL和Intel要稍微落后一些。

分享到

zhaohang

相關(guān)推薦