高性能計算機與普通計算機有什么不同呢?第一個是系統(tǒng)的規(guī)模越來越大?,F(xiàn)在世界上最快的機器是IBM生產(chǎn)的,它有13萬個處理器,這樣帶來什么樣的結(jié)果呢?就是很容易出故障,就是高性能計算需要故障率是很低的。第二個是對網(wǎng)絡(luò)要求比較高,下面有這樣一張圖,這是用Intel的工具把一個并行程序分開來,大家可以看到橫著的都是一個一個處理器
可以看到通信是非常頻繁的,也就是說高性能計算的程序?qū)W(wǎng)絡(luò)的要求是很高的,可能現(xiàn)在數(shù)據(jù)處理千兆以太網(wǎng)可能就不夠了。第三,單點故障會影響整個程序,在執(zhí)行過程中只有有一個CPU出現(xiàn)故障的話,如果沒有做特殊軟件可靠性處理的話,整個程序就會失效。大家想想過去石油方面的程序一算要算一個月,如果算到第28天的時候有一個程序不可靠了,那就需要重新算,單點故障會影響到整個并行應(yīng)用的運行。
高性能計算會給我們做高性能計算系統(tǒng)帶來一些挑戰(zhàn)。首先耗電特別大就會帶來一些問題,現(xiàn)在有關(guān)部門提了一個很大的問題,他們買機器的錢國家給批了,但是電費、空調(diào)運行的錢國家一直沒有批,所以在和國家發(fā)改委討論有一大部分錢是用于機器運行的。所以低功耗的版本確實可以使制革的不成本大大降低。
第二,不光是本身耗電多了,在空調(diào)方面也是需要很多的電把熱散出去,這也是一個很大的挑戰(zhàn)。在05年我們測試曙光4000A的時候,當(dāng)時只能測320個節(jié)點,也就是沒有把全部的節(jié)點都測掉,這還是相當(dāng)于我們做驗收測試的時候做的,這是由散熱問題導(dǎo)致的。另外一個問題是機房的面積。
右邊這個圖是在全球TOP500企業(yè)里面處理器的個數(shù)是多少,這上面表示的是大致從128到2048個處理器,我們看到最下面的128k,就是說系統(tǒng)規(guī)模確實是非常的大。
高性能計算節(jié)點運算非常的頻繁,第一要做一套專用的計算寬帶網(wǎng)絡(luò),整個這套系統(tǒng)里有存儲網(wǎng)絡(luò),這又是一套網(wǎng)絡(luò),除了這些以外其有一個管理網(wǎng)絡(luò)。另外還有鍵盤、鼠標控制這些機器,如果按照傳統(tǒng)方法做的話至少需要4套網(wǎng)絡(luò)才能實現(xiàn),我本來想照張照片機器后面這些線為什么聯(lián)起來亂了,因為一些原因不太好照,所以沒有照出來,就是說這些線是很混亂的。這個結(jié)果是什么呢?故障是跟你的復(fù)雜度成正比的,你知道這些都是潛在故障的源泉。
我這里有一張圖,橫著和豎著是兩個進程,比如說左上角就是通信1和通信2的延遲,大家可以看到還有一行紅色的,代表的是某一個進程和其它進程的延遲都是比其它很正常的延遲大,實際上這個網(wǎng)絡(luò)不是不通,網(wǎng)絡(luò)是通的,但實際上就是比較慢。這樣大家覺得對一般的應(yīng)用不是很嚴重,但是這在高性能計算里面是比較嚴重的故障。
我們討論了高性能計算對系統(tǒng)的需求和挑戰(zhàn)以后,我們來看一看刀片服務(wù)器能夠給我們提供什么樣的好處。首先第一個好處刀片服務(wù)器的密度比較高,可以節(jié)省機房的面積。這里我們有一套HP Bladesystem C-Class刀片機箱,有10U的高度,這樣可以插16個BL46O刀片,在空間上就可以節(jié)省40%,這是很明顯的。
第二,新一代刀片服務(wù)器機柜里面集成了供電和冷卻工作,在整個機柜里面把風(fēng)路和供電都設(shè)計好了,這樣的效率會比較高一點,可以節(jié)電約20-30%。同樣如果在耗電方面降低了這么多,在散熱方面也就降低了一些,這樣使得整個機房的維護性都提高了。
第三個優(yōu)點,刀片服務(wù)器在背板上集成了交換網(wǎng)絡(luò),所以線纜的數(shù)量是大大減少的。這張圖,那么這類的問題就可以減少了很多,然后還可以提高部署速度,在背板上就可以把這些很好的管理起來。
另外還有一點,其實做電信的朋友都很清楚,機架式服務(wù)器都是橫著放的,為什么刀片都是豎著放的?電信有者路由器的老師準備跟我討論過這個問題,刀片服務(wù)器豎著放可以降低存儲的短路,同樣在某種程度上就減少了故障。
當(dāng)然我是從學(xué)術(shù)的觀點來談的,雖然這是刀片的論壇,但也會講講刀片服務(wù)器的不足。一方面購買成本高,對小規(guī)模用戶價格較貴。第二個刀片的不足是標準比較多,剛才Intel也說加入了很多聯(lián)盟,那么這有一個問題就是這些聯(lián)盟之間是不是互操作的,能不能很好的互相兼容,這是很多用戶很關(guān)心的問題,我想這也是整個產(chǎn)業(yè)下一步發(fā)展需要關(guān)注的問題。
包括HP PCLASS和CCLASS都不能兼容,所以標準怎么制定也是一個很大的問題。如果對小規(guī)模的用戶來講沒有必要追求時髦,如果只有10個處理器以外的應(yīng)用,現(xiàn)在傳統(tǒng)的機架式的服務(wù)器我想應(yīng)該能夠很好的滿足你的要求。
剛才討論了高性能計算的特點,也討論了刀片服務(wù)器的優(yōu)點和缺點,我們下面來討論一下計算與刀片架構(gòu)的區(qū)別。優(yōu)點是密度高,節(jié)約機房面積,集成供電和冷卻、省電。缺點,購買成本高,對小規(guī)模用戶價格較貴,表針較多,互操作性和擴展性不足,這個問題對于高性能計算系統(tǒng)來說也不是很嚴重。
作為一個結(jié)果我們還是來看在世界前500強的刀片服務(wù)器已經(jīng)處于什么樣的位置,HP的刀片系統(tǒng)沒有進入前10名,但500性中有152套HP C-CLASS Blade系統(tǒng),所以HP還是很值得一提的。刀片服務(wù)器在國際上已經(jīng)被廣泛的使用了,但是國內(nèi)的采用還是要滯后一點。
從高性能計算的角度我們對刀片還有哪些需求,能不能做的更好,我覺得有以下幾個方面能夠做的更好。第一是集成更高速度的互聯(lián)網(wǎng)絡(luò),從原來的2G到今后的10G、20G,我們在現(xiàn)在的刀片服務(wù)器系統(tǒng)之間需要5微妙的時間。第二個是管理軟件,一會兒VMware公司也會講虛擬化技術(shù),目前我們也在做這方面的一些研究,因為傳統(tǒng)的高性能計算跟用戶的接口是一個任務(wù)調(diào)度器,我們現(xiàn)在希望把虛擬化技術(shù)與刀片服務(wù)器技術(shù)提供起來,能夠提供一個類似于專用的虛擬計算機。
另外跟剛才我講的高性能計算越來越大的趨勢有一點相反的是,桌面的高性能計算,原因是當(dāng)多內(nèi)核系統(tǒng)越來越常見的情況下,刀片可以集成很多的密度,就是12個處理器、16個處理器的計算機也是可以做出來的。
這有什么要求呢,第一就是高密度,這個刀片已經(jīng)解決掉了。第二就是需要低功耗。第三個就是低噪音。我們實驗室有準備的機房,因為我們經(jīng)常做高性能計算,我們做媒體的一位老師,現(xiàn)在發(fā)現(xiàn)有的學(xué)生不愿意去實驗室了,因為他那兒的噪音太大,所以在低噪音方面也可以做一些新的嘗試。我想多核的發(fā)展本來是從低端拉到高端的過程,要想使得這個過程更加順暢,我想應(yīng)該把它從機房請出來,請到桌面上,那么低噪音是今后努力的一個方向。
總結(jié)一下,一開始沒有機架式服務(wù)器,那么機架式服務(wù)器提供了一個擺放的方式,那么在這基礎(chǔ)上出現(xiàn)了刀片服務(wù)器,它的優(yōu)點也是我們非常歡迎的,我們也說了刀片服務(wù)器的一些特點和高性能計算的特點,我們認為這兩個是配合的非常好的,它以后會在這個領(lǐng)域得到進一步的發(fā)展。謝謝。