久久久精品亚洲,日本在线一区二区三区欧美,伊人久久综合凹凸资源

英特爾至強融核Xeon Phi

首先Xeon Phi是基于集成眾核(MIC)架構(gòu)的也就是Intel Larrabee GPU。 Xeon Phi的制造工藝采用了Intel當前最先進的22nm 3-D柵極晶體管。對于Linux操作系統(tǒng)，Xeon Phi是可以不依賴傳統(tǒng)Xeon CPU直接運行的，但BIOS等方面還需要做一些小的改動，為了兼容大量傳統(tǒng)x86應(yīng)用，目前還沒有推出這樣的平臺。

NVIDIA Tesla K20X：

NVIDIA GPGPU Tesla K20X

今年TOP500的冠軍泰坦所使用的GPU加速器就是Tesla K20X，Tesla K20系列是基于NVIDIA的 Kepler計算架構(gòu)。采用SMX流式多處理器。除此之外通過增加四倍數(shù)量的CUDA架構(gòu)核心來實現(xiàn)SMX的節(jié)能效果，同時還降低了每個核心以及GPU電源門控零件在閑置時的時鐘頻率，最大限度增大了專門用于并行處理核心而非控制邏輯的GPU區(qū)域。

優(yōu)勢對比

性能方面

NVIDIA Tesla K20X：

Tesla K20X屏蔽了1組SMX單元，剩下14組SMX，CUDA計算核心相應(yīng)的減少為2688個，不過保存了384bit完整的顯存位寬，配備的是6GB GDDR5顯存，顯存頻率為5200MHz。由于要面對大核心功耗、良率、發(fā)熱的問題，Tesla K20X核心頻率預(yù)設(shè)并不太高，為732MHz，單精度和雙精度浮點計算性能分別達到了3.95 TFlops和1.31TFlops，比例為1：3。

Xeon Phi：

在Xeon Phi coprocessor 5110P身上我們更多的看到的還是x86的影子，產(chǎn)品雖然使用了多達60個計算核心，當然架構(gòu)和流水級數(shù)的大幅削減，產(chǎn)品的核心頻率并不會像桌面產(chǎn)品那樣動輒3GHz以上，只有區(qū)區(qū)1.053GHz，但是和桌面產(chǎn)品相比卻有著更高的執(zhí)行效率，雙精度計算性能也突破了1TFlops，為 1.053TFlops。

編程方面

Xeon Phi最大優(yōu)勢就是在使用x86架構(gòu)的并行計算時不需要對代碼進行大規(guī)模改寫，只需要對編譯器和Runtime等進行調(diào)整即可順利使用Xeon Phi進行加速。Intel指出相對NVIDIA的CUDA或者OpenCL等異構(gòu)計算道路，一些研究機構(gòu)可以不用重寫它們的x86應(yīng)用。

NICS的MIC架構(gòu)初步試驗結(jié)果

Xeon Phi的推出無疑是對NVIDIA GPGPU代表的異構(gòu)計算構(gòu)成了威脅，那么有了Xeon Phi之后我們真的不再需要GPGPU了么?

回答是否定的，Intel在Xeon Phi中加入了新的512bit寬度ZMM寄存器指令集，使得Xeon Phi的矢量單元(vector unit)和其他所有Intel處理器產(chǎn)品都不相同，這意味著Xeon Phi系列產(chǎn)品和其他Intel CPU在二進制代碼上實際是不兼容的。為 Xeon Phi所編寫、編譯的代碼不能在其余CPU上運行，反之亦然：為SIMD大量優(yōu)化的代碼對Xeon Phi同樣沒有意義。此外Intel還重申Xeon Phi是一款協(xié)處理器，需要CPU的輔助才能發(fā)揮應(yīng)有的作用，從模式上來說已經(jīng)和NVIDIA的Tesla加速卡類似，偏離了原有的設(shè)想。

總結(jié)

以上解釋與說明只指向一個事實：在MIC架構(gòu)上編寫應(yīng)用并不比走CUDA/OpenCL GPGPU的道路工作量小。即使是號稱通用性最強的OpenCL，代碼也必須根據(jù)硬件的架構(gòu)特征所大量的優(yōu)化與改動，否則得到的性能數(shù)據(jù)毫無實際意義。聯(lián) 系到目前的實際情況，毫無疑問NVIDIA的CUDA無論性能還是走在了市場的最先端，而OpenCL和Intel要稍微落后一些。

分享到

zhaohang

相關(guān)推薦

近期文章

熱門標簽