中國計算機(jī),第一是"天河一號",第三位是星云。

"天河一號"計算機(jī)與2010年8月在天津市超計算中心開始安裝,9月到10月兩個月時間就完成全世界的調(diào)試于性能測試。從2010年11月開始,系統(tǒng)就開始試運(yùn)行,接待國內(nèi)的用戶。下面是"天河一號"的主要配置,"天河一號"含有14366顆英特爾處理器,互連網(wǎng)絡(luò)是國防科大自主研制互連網(wǎng)絡(luò),存儲網(wǎng)絡(luò)是2個TB,有218個計算服務(wù)機(jī)柜,還有6 個通信機(jī)柜。

"天河一號"一個特色就是采用了我們國家自主首創(chuàng)CPU與GPU體系結(jié)構(gòu),實(shí)際上源于我們2005年開始的一些運(yùn)行研究工作,到2007年我們國防大學(xué)的研究就把相關(guān)的理論結(jié)果與實(shí)踐結(jié)果相結(jié)合,09年研制了天河1,這個計算機(jī)是排名全球第五位,當(dāng)時我們主要進(jìn)行了體系結(jié)構(gòu),解決一個什么問題呢?CPU和 GPU協(xié)作計算的時候效率問題。

因為當(dāng)時CPU和GPU在解決問題的時候效率并不高,單CPU和單 GPU合起來也就20%計算效率,顯然不滿足要求。經(jīng)過我們科研人員努力,從20%提高到70%的工作效率,因此從"天河一號"徹底驗證了,從體系結(jié)構(gòu)上驗證了這條路是可行。2010年我們用了一年時間,對天河一進(jìn)行升級,也就是現(xiàn)在天河一 A系統(tǒng)。整個系統(tǒng)里面計算組也是我們設(shè)計研究,還有互聯(lián)網(wǎng)絡(luò),也有我們自己定制的軟件站,里面包括計算處理系統(tǒng),服務(wù)處理系統(tǒng),基礎(chǔ)診斷系統(tǒng)等等,當(dāng)然也是我們這個會的主題存儲。

計算處理系統(tǒng)包括7168個計算機(jī),每一個計算節(jié)定有2-6核CPU和1個GPU,GPU采用是英維達(dá),就保持主處理器和GPU之間有足夠的帶寬。右邊兩張圖,右邊是處理器的主板,4個CPU,下面是GPU的主板,靠在CPU主板上面,這樣一個CPU主板和GPU主板合起來就是兩個計算節(jié)點(diǎn)。右面主板含有 4個CPU,這4個CPU聯(lián)成兩個節(jié)點(diǎn),符合節(jié)點(diǎn)主要是用于登錄,強(qiáng)調(diào)團(tuán)隊的計算能力,包括網(wǎng)絡(luò),數(shù)據(jù)庫等一些應(yīng)用。

互聯(lián)通信系統(tǒng)也是國防科技大學(xué)自主研制,達(dá)到10GBDS,是現(xiàn)在主流通信網(wǎng)絡(luò)2倍的速度。雙向帶寬有116個GPS,采用2級網(wǎng)絡(luò),第一級網(wǎng)絡(luò)把16個節(jié)點(diǎn)通過交換板互聯(lián),第二是全系統(tǒng)通過11個384個互聯(lián),每個機(jī)柜里面包含兩個交換機(jī)。研制了2款芯片,一個是網(wǎng)絡(luò)結(jié)合芯片,MSC,主要是實(shí)現(xiàn)這個節(jié)點(diǎn)與高效能網(wǎng)絡(luò)連接。

另外一個網(wǎng)絡(luò)芯片實(shí)現(xiàn)14個互聯(lián)端口互聯(lián),吞吐量達(dá)到2.56TB。這是在集散機(jī)16口的交換板,實(shí)際上主要有兩個接口,上面接口插在背板上面,這個靠右邊的電源,這個靠左邊一排是信號。比如在機(jī)柜,機(jī)框里面看不到,下面有16個口子就連接到交換機(jī),這是機(jī)柜計算機(jī)里和交換機(jī)之間的接口。

這兩個是交換機(jī)里面的兩種不同的刀片,第一個是葉交換刀片,這是另外一個刀片,大家可以看到我就不多說了。我們的交換機(jī)采用自主研制的協(xié)議,吞吐量達(dá)到 61.44TBTS,是交換機(jī)的2.37倍。那么,這個左邊是交換機(jī)一個正面和反面,右實(shí)際上是一個交換機(jī)柜,每個里面有2個交換機(jī)。

輸入輸出系統(tǒng)總?cè)萘坑?PG,我們通過自主高速互連網(wǎng)絡(luò)連接起來,這些存儲系統(tǒng)和計算節(jié)點(diǎn)都是通過自主研制的網(wǎng)絡(luò)連接起來。網(wǎng)絡(luò)這邊基于Lustre用來提供穩(wěn)定性和性能。還有一個是監(jiān)控診斷系統(tǒng),實(shí)現(xiàn)全系統(tǒng)的檢測和控制功能,主要功能有實(shí)時系統(tǒng)的狀態(tài)檢測,故障定位,還有一個反饋的冷卻環(huán)境,自動根據(jù)主板和 CPU溫度來進(jìn)行控制。另外還提供遠(yuǎn)程的監(jiān)控和管理,我們像機(jī)房直接在用戶端就可以控制啟動,進(jìn)行故障控制。

基礎(chǔ)架構(gòu)系統(tǒng),我們采用雙重對面刀片式系統(tǒng),溫度高,維護(hù)方便。每個機(jī)柜含128個計算節(jié)電,4個網(wǎng)絡(luò)交換半,4個監(jiān)控診斷板。接下來介紹"天河一號"軟件系統(tǒng),包括操作系統(tǒng),編寫系統(tǒng),并行程序設(shè)計和可視化環(huán)境。是基于Linux開發(fā),主要改造有計算節(jié)點(diǎn)采用一個定制內(nèi)核,提供一個虛擬運(yùn)行環(huán)境,通過這個虛擬運(yùn)行環(huán)境用戶之間的數(shù)據(jù)就實(shí)現(xiàn)一個安全過濾,面向多個用戶,然后用戶也可以定制自己的計算環(huán)境,在這里面也可以進(jìn)行系列的資源角度,我們資源角度也可以達(dá)到CPU的核。

另外研制一套大規(guī)模資源管理系統(tǒng),對整個作業(yè)管理系統(tǒng),作業(yè)調(diào)度就有一套系統(tǒng)來管理。另外操作系統(tǒng)還有節(jié)能控制功能,編譯系統(tǒng),對我們來講超計算機(jī)比較好,保證一些傳統(tǒng)計算機(jī)用戶把他的程序很平滑過渡起來。超級計算機(jī)包括C.C++,另外我們把針對異構(gòu)計算放進(jìn)去提供用戶使用。還有我們?yōu)榱私鉀Q大家不習(xí)慣的問題,我們研制了異構(gòu)并行的編程框架,主要思想是這樣的,現(xiàn)在大家并行這個CPU的應(yīng)用,更多是來一個應(yīng)用就把這個運(yùn)營進(jìn)行改變,但這樣會帶來一個什么缺點(diǎn)呢?這個應(yīng)用不但在開發(fā)過程中是變化的,反復(fù)要改。

還有一個問題運(yùn)用的代碼,用戶他不愿意給你這個開發(fā)人員,牽扯到知識產(chǎn)權(quán)問題,或者是牽扯到保密的問題,這樣你會拿不到那個原代碼。這個過程是很長,對于一些上層用戶未必對你體系結(jié)構(gòu)能夠很好的掌握,未必去習(xí)慣這個技術(shù)編程。因此我們開發(fā)這個編譯編程代碼,主要思想使使用CPU,GPU協(xié)同計算能力,隱藏,或者說半隱藏這個CPU編程。

主旨思想就是在節(jié)點(diǎn)之間并行并購,我們主要交給計算機(jī)專家來做,計算專家他懂體系結(jié)構(gòu),懂編譯,懂操作系統(tǒng)。另外,編譯程序設(shè)計環(huán)境,我們采用統(tǒng)一的基礎(chǔ),包括性能的調(diào)優(yōu)和調(diào)試,也提供遠(yuǎn)程開發(fā)。

科學(xué)計算可視化系統(tǒng),接下來給大家介紹一下"天河一號"現(xiàn)在使用階段一些典型應(yīng)用。一顆GPU相當(dāng)于7顆CPU的應(yīng)用,也是 CPU,GPU性能計算。這個里面主要是解決了單節(jié)點(diǎn)異構(gòu),節(jié)點(diǎn)之間這層變形不動,但是這層變形可靠性可以保證下來。

還有一個是應(yīng)用情況,運(yùn)行效率達(dá)到87%,這是產(chǎn)業(yè)測試集中的地方,正常狀態(tài)下的情況。這個軟件是中國石油集團(tuán),在我們系統(tǒng)里面最多達(dá)到8586個核,這個物質(zhì)處理原來是要1個月時間,現(xiàn)在是要1天時間。那天我們在開玩笑,整個這個系統(tǒng),整個這個計算速度大幅減少,原來認(rèn)為他們把3T數(shù)據(jù)從自己單位跑到這個中心,他自己原來沒有考慮,他自己開過車把這個數(shù)據(jù)送過來,路上的時間就一天的時間。

這三幅圖35公里,大約1000平方的處理結(jié)果,包括深度平移,深度切片等等,這個處理軟件就相當(dāng)于給地殼做了一個CT一樣,這個數(shù)據(jù)處理的結(jié)果實(shí)際上我們就可以看到我們腳底下這個地層的情況,就會為尋找石油帶來極大的方便。這點(diǎn)有了這種高性能計算,帶來社會經(jīng)濟(jì)效益非常好的著力點(diǎn)。現(xiàn)在是缺油,到國外找石油,國外就會招標(biāo),招標(biāo)的時候給你數(shù)據(jù),如果說你能夠盡快把這個數(shù)據(jù)處理起來,我心里就有底,國外在談判的時候我在競標(biāo)的時候就有底氣了,到底多少錢可以把這個油田拿下來。

另外一個應(yīng)用是藥物研究,這個軟件是上海藥物所研究的軟件,現(xiàn)在的計算情況正在算,目前是1萬元用了300多個核,這些概念確實(shí)不是太懂。但至少我們反映了一個用戶的情況,我們覺得有這么大規(guī)模的系統(tǒng),對他們的研究工作有非常大的幫助,并且他們原來不敢想做的事情,現(xiàn)在敢想了。像原來他的系統(tǒng)就是幾百個核,幾千個核,現(xiàn)在他就考慮要修改他的程序,把"天河一號"上面幾萬個核給用起來。這是"天河一號"上面正在使用的計算機(jī)應(yīng)用單位和即將和朝陽中心使用計算機(jī)的應(yīng)用單位,謝謝大家。

分享到

zhabin

相關(guān)推薦