亚洲国产精品va在线观看香蕉,中文字幕+日韩在线视频

AMD中國區(qū)技術總監(jiān)劉文卓先生

一般HPC都是做工程、橋梁飛機制造以及彈道等方面的計算及應用工作，因此這些應用對浮點運算的要求比較高。而我們AMD的處理器做浮點運算一直相當出色，64位、直連架構等特性都對HPC最終走向平民化起到了一個推動作用，像現(xiàn)在TOP500中的Cray也采用的是我們AMD的皓龍芯片。

還有一個就是我們今年推出的Magny-cours 8核/12核產(chǎn)品，對HPC應用上有出色的表現(xiàn)。其實HPC按照應用來分，有的就可以用我們高端的皓龍6000系列芯片，而有的用我們的皓龍4000系列芯片就能夠滿足，最關鍵的是看你想用HPC來做什么。我們之所以會分成4000和6000兩個系列，就是因為要針對不同的應用。現(xiàn)在雙路的應用占有了75%之多的市場，從某種角度來說某些低端的應用也可以做HPC，原先HPC也叫做集群，就是一組服務器放在一起統(tǒng)一管理，對某些經(jīng)費有限的用戶，比如大學或互聯(lián)網(wǎng)用戶，皓龍4000系列處理器是非常合適的，因為性價比很高。

DoSERV記者：如果從技術上來講，AMD的芯片在HPC優(yōu)化上能夠起到什么作用呢？

劉文卓先生：目前來講，我認為功耗和性能是困擾HPC的兩大難題。以之前我們合作伙伴曙光5000A超級計算機為例，他們告訴我這臺機器僅一天的用電費用就達到了1.6萬到2萬元，而現(xiàn)在我們的能源又那么緊缺，所以功耗的節(jié)省成為了HPC優(yōu)化的核心問題。我們AMD 8/12核的產(chǎn)品不但性能有幾乎兩部的提升，而且可以為HPC應用動態(tài)降低能耗，它可以根據(jù)不同的應用關掉暫時無負載的核心，當機房供電能力不夠的時候可以對系統(tǒng)進行功耗上限設置，或者通過AMD的PowerNow!等技術來完成能耗的節(jié)省。

DoSERV記者：現(xiàn)在有很多超級計算機都采用了CPU+GPU的混合計算模式，AMD在這個趨勢上也是領軍者之一，是什么促使AMD認為這種模式可以為HPC帶來更大的性能提升呢？在這種處理器架構模式上，AMD是怎么考慮和設計的呢？

劉文卓先生：CPU按照我們常用的摩爾定律來說，一般的更新?lián)Q代時間是18個月，也就是說它能夠在18個月后性能就可以翻一番。而GPU的更新速度是CPU的1.5倍，也就是說通常12個月的時間GPU的性能就翻了一番。大概五年前，CPU和GPU的晶體管數(shù)量是差不多的，而現(xiàn)在AMD的GPU的最頂端產(chǎn)品擁有超過20億個晶體管，我們AMD的四核CPU產(chǎn)品有超過7億多個晶體管，這樣一來差距已經(jīng)差出很多來了。CPU相對來說體系結構復雜很多，有計算單元，有緩存，還有其他的邏輯部件如分支運算的預測等工作，而GPU則相對簡單，大部分是應用在顯示運算上的。

GGPU里面大約有超過40%是邏輯運算單元，而CPU只有5%是邏輯運算單元，所以說單純從運算速度來說，發(fā)展到現(xiàn)在，GPU比CPU要快很多。像我們的最快的12核心的皓龍CPU，主頻2.3GHz，運算峰值為110.4Gflops。而我們最快的GPU Radeon HD 5970，含有3200個流計算單元，單精度32位的運算峰值速度是4.64Teraflops，是CPU的42倍，雙精度64位是CPU 的8倍。對于一些特殊應用，其加速比甚至可以上百倍。剛才講的能耗問題，我們造一個超級計算機一天就要消耗掉2萬元人民幣的電，如果采用GPU的話，整個系統(tǒng)的規(guī)模就可以大大降低，同樣的計算能力GPU可以把能耗降到1/5或不到一半的規(guī)模。

AMD中國區(qū)技術總監(jiān)劉文卓先生在AMD產(chǎn)品展區(qū)

像上次我在國外開的一個超算會議，研究GPU運算在國外很火，超過一半的HPC的應用研發(fā)都集中在GPU上，大家都在研究如何在GPU上計算。其實對編程人員來說，在GPU上是很難做編程的，因為它的設計是為顯示用的，不是做計算的。但發(fā)展到現(xiàn)在，它的每瓦性能又確實很高，所以大家都在努力做編程以及遷移。

而我們在這方面，AMD整合了ATI，所以在GPU技術上有著得天獨厚的優(yōu)勢。不過，就目前來講，要把這樣的模式用好還很困難，我國的天河一號就采用了這種模式，但是要完全用好和充分發(fā)揮GPU的計算力至今還是一個難題，所以這里面還有很長的路要走。

我們正在筆記本和臺式機上開發(fā)一些利用GPU做加速運算的應用，到明年我們的新的Fusion平臺發(fā)布的時候大家就能看到，非常值得期待。，相信未來也可以遷移到服務器平臺。所以從此可以看出來，GPU+CPU是肯定要做的事，而且日后也肯定會遷移到這個平臺上面。

DoSERV記者：從某種意義上講，內存是CPU與I/O設備溝通的一個巨大的緩沖區(qū)，是最為繁忙的數(shù)據(jù)跳轉站，而如果想要充分發(fā)揮CPU的浮點運算性能，充足的內存帶寬是必不可少的。而CPU作為HPC的核心，也必須擁有足夠的內存通道，AMD在這方面有著那些準備和計劃？還有在處理器架構和協(xié)處理器設計上，AMD采取了怎樣的方式對內存通道進行優(yōu)化呢？這樣的優(yōu)化能夠為整個HPC的優(yōu)化帶來怎樣的影響？

劉文卓先生：這個問題很好。在目前的計算機體系結構中，CPU核心速度最快，其次是二級緩存，然后是三級緩存，然后是內存，硬盤最慢，內存與緩存之間有著數(shù)量級上的速度差別。03年，AMD就推出了直連架構，就是為了提高內存的訪問速度。直連架構、內存控制器對提升CPU的總體效能有很大幫助。

AMD在最新的12核處理器中將內存通道從原來的兩個增加到了4個。要想提升浮點運算效能，就要把浮點運算單元中的管道盡量灌滿，而內存通道越多它就灌得越快，算得也就越快。而如果用GPU加速運算，就會存在大量數(shù)據(jù)從CPU的主存復制到GPU的顯存中的一個傳輸問題，它算完了還要復制回來，這個來回的傳輸比較占用時間。在現(xiàn)在體系結構上，把大規(guī)模的數(shù)據(jù)扔給GPU去算，要盡量讓它算時間長一些再傳回來，這樣的模式會比較合算。因為如果傳給GPU數(shù)據(jù)的時間超過了CPU自己算出結果的時間，那就不合算了。還有如果讓它做迭代或遞歸這樣的復雜計算也不行，為什么呢？我們都知道GPU是做流計算的，顯示屏上的每個像素都是算出來的，而且每個像素之間都沒有邏輯關系。所以GPU比較適合處理并行數(shù)據(jù)，就是那種沒有橫向相關性的數(shù)據(jù)和任務。比如像加密和解密這樣的數(shù)據(jù)之間無邏輯關系的數(shù)據(jù)以及分子動力學的數(shù)據(jù)等等，都比較適合它來做計算。

現(xiàn)在AMD計劃在臺式機筆記本中推出的Fusion芯片會將CPU、GPU整合在一起，讓它共享內存控制器。不是常規(guī)的通過PCI-E總線傳數(shù)據(jù)，而是通過內存通道來傳送數(shù)據(jù)，這樣一來就可以解決剛才所說那個傳輸過程耗費時間的問題。我們現(xiàn)在做的第一個版本CPU和GPU的數(shù)據(jù)還是分開來存，第二版的Fusion將會把采用數(shù)據(jù)共享的方式，消除了數(shù)據(jù)拷貝的代價。，我們未來計劃在服務器上也這么做。不過，服務器需要更好的穩(wěn)定性還有OpenCL這樣的開放環(huán)境，所以就比較復雜。

DoSERV記者：AMD現(xiàn)在已經(jīng)推出了12核心的Magny-coursCPU，堪稱業(yè)界核心數(shù)最多的處理器，而且在AMD之前的會議上，也表示它將面向HPC和云計算，那么從雙核、四核再到八核、十二核，HPC在核心上的優(yōu)化都有著那些變革？

劉文卓先生：多核肯定是一個趨勢，我們除了今年的8/12核馬爾庫尼產(chǎn)品外，在明年還會推出推土機系列芯片，每個CPU的核心數(shù)量達到16核
。純粹追求主頻的技術路線已經(jīng)證明是行不通的，因為無法解決CPU的功耗問題。其實單線程頻率的提高是有意義的，但是在沒辦法把主頻推到最高的時候，只能采用多核心來分擔處理任務的負擔。當然了，太多核心也會碰到問題，核心之間溝通的開銷也會比較大，所以在我們做到16核的時候在考慮利用GPU來做加速運算。

云計算是一個確定的發(fā)展趨勢。舉個例子，像我們過去會將銀子埋存起來，后來怕被偷就有了錢莊以及銀行。以前各個地方都是打井，現(xiàn)在就變成了自來水?，F(xiàn)在我背著本到處跑，背著內存硬盤等等，以后我就不需要一直帶著這些東西，我只要把這些東西都存在后臺就好了。這就是一個很明顯的事，像現(xiàn)在我們會把照片放到網(wǎng)上，還有電子郵件等等，都是典型的云應用。

由于云計算涉及的系統(tǒng)數(shù)量特別大，多則能夠到數(shù)十萬臺服務器。在構建這樣的數(shù)據(jù)中心或云中心時，首先考慮的就是功耗問題，其次是價格問題，最后是性能夠不夠用的問題。而且云計算里很多互聯(lián)網(wǎng)的應用中，CPU的使用率都不會超過30%，這樣一來，我們的4/6核的皓龍4000系列處理器就正好能夠滿足這種大規(guī)模數(shù)據(jù)中心的應用了。如果運算上的需求很高，也可以用我們的皓龍6000系列，可以充分滿足他們的計算需求。所以未來是這樣的一個發(fā)展趨勢。

DoSERV記者：據(jù)我所知一般芯片廠商都會為芯片產(chǎn)品提供一些相關技術的支持，比如推出編譯器，增強系統(tǒng)性能等等，在這方面AMD有哪些產(chǎn)品可以作為支持呢？還有在這種編譯器的設計上能夠對編譯性能的優(yōu)化起到那些幫助呢？

劉文卓先生：在軟件上呢，其實X86的編譯器已經(jīng)很成熟了。我們采用的是Open64這樣的開源軟件，AMD在上面做了很多編譯器上的調優(yōu)、適合多核的一些優(yōu)化選項、數(shù)學庫等等，根據(jù)我們AMD產(chǎn)品上的一些特性與軟件做結合。在GPU加速運算方面我們推廣業(yè)界標準OpenCL這樣的編程環(huán)境?，F(xiàn)在我們也在考慮與國內的一些軟件企業(yè)和研究機構合作，因為這些年來我國的軟件水平有了很大的提高。

DoSERV記者：那剛才談的編譯性能能夠對HPC的優(yōu)化起到什么樣的作用？

劉文卓先生：編譯器對實際應用的優(yōu)化是很重要的，有很多現(xiàn)實的案例，，我們的工程師只要在編譯器上修改一兩個選項，整個系統(tǒng)的性能就會有很大的提升，尤其是在多核應用中，有的程序編得不好，只能用到1-2個核心，但現(xiàn)在我們就可以充分利用所有的12個核心。以前，設計CPU的時候都是把指令集做完后再做編譯優(yōu)化，我們自從巴塞羅那處理器以后在設計下一代CPU的時候，就跟編譯器軟件廠商合作，詢問他們要加什么指令，然后我們在設計核心的時候就加入進去。

分享到

AMD HPC 優(yōu)化至強高性能計算

zhabin

相關推薦

近期文章

熱門標簽