圖為曙光"云計(jì)算"解決方案拓?fù)浣Y(jié)構(gòu)圖

中國地質(zhì)大學(xué)(武漢)云計(jì)算平臺是由曙光5000A在基礎(chǔ)架構(gòu)上進(jìn)行了創(chuàng)新和改進(jìn),采用HPP(Hyper Parallel Processing)體系架構(gòu),融合了Cluster和MPP兩種計(jì)算機(jī)的優(yōu)勢;曙光5000A的計(jì)算節(jié)點(diǎn)以TC2600系列刀片產(chǎn)品為主,也可以配置曙光其他服務(wù)器產(chǎn)品。既可以使用全限速無阻塞的Infiniband 網(wǎng)絡(luò)構(gòu)建通訊網(wǎng)絡(luò),也可以使用冗余萬兆級聯(lián)的分區(qū)無阻塞Ethernet互聯(lián)網(wǎng)絡(luò);配置存儲系統(tǒng),既可以配置簡單易用的DAS存儲,又可以構(gòu)建高性能的FC或Infiniband SAN存儲,提供較高的聚合I/O帶寬等。

計(jì)算子系統(tǒng)高性能計(jì)算節(jié)點(diǎn)部分共包括92個(gè)曙光CB65-F刀片服務(wù)器,共提供了736個(gè)2.6GHz處理器核心和1.5TB內(nèi)存,另外還提供了兩臺胖計(jì)算節(jié)點(diǎn),具備超強(qiáng)的計(jì)算能力,理論峰值運(yùn)算速度高達(dá)8.87Tflops(每秒8.87萬億次浮點(diǎn)運(yùn)算)。

曙光提供的存儲子系統(tǒng)硬件部分是基于目前業(yè)界領(lǐng)先的高速Infiniband互聯(lián)之上的全局共享并行IO架構(gòu),包括4個(gè)數(shù)據(jù)服務(wù)器、1個(gè)元數(shù)據(jù)服務(wù)器、一套12T的一級實(shí)時(shí)存儲和一套二級備份存儲,軟件部分基于成熟的Lustre并行文件系統(tǒng),數(shù)據(jù)塊分散存儲于4個(gè)存儲管理節(jié)點(diǎn),降低數(shù)據(jù)丟失風(fēng)險(xiǎn)。和曙光集群管理軟件結(jié)合,對文件系統(tǒng)部署、文件系
統(tǒng)管理、文件系統(tǒng)快速恢復(fù)提供良好支持。(下圖為存儲結(jié)構(gòu)示意圖)

圖為中國地質(zhì)大學(xué)(武漢)高性能計(jì)算平臺存儲結(jié)構(gòu)示意圖

由于地質(zhì)學(xué)的特殊性,曙光為其云計(jì)算平臺設(shè)計(jì)了三套互聯(lián)網(wǎng)絡(luò)!基于Infiniband的高速通信網(wǎng)絡(luò)和基于千兆管理維護(hù)網(wǎng)絡(luò)和千兆作業(yè)調(diào)度網(wǎng)絡(luò),IB網(wǎng)絡(luò)和千兆以太網(wǎng)專網(wǎng)專用并互為備份。

管理診斷子系統(tǒng)和高集成度硬件控制單元也是此套方案亮點(diǎn)之一,新一代曙光5000A超級計(jì)算機(jī)系統(tǒng)具備業(yè)界最為完善的管理、診斷系統(tǒng)設(shè)計(jì)。全新管理平臺包括內(nèi)嵌于服務(wù)器節(jié)點(diǎn)的高集成度服務(wù)器硬件控制單元以及功能全面的管理軟件系統(tǒng)Gridview HPC 2.0
服務(wù)器硬件控制單元集成了IPMI2.0、KVM over IP、虛擬媒體、散熱控制以及電源管理等功能,能夠?qū)Ψ?wù)器節(jié)點(diǎn)實(shí)現(xiàn)硬件級別的全面資源管理。服務(wù)器硬件控制單元完全獨(dú)立于操作系統(tǒng),通過RJ45端口接入千兆管理網(wǎng)絡(luò),配合Gridview管理軟件實(shí)現(xiàn)對全部硬件資源的統(tǒng)一監(jiān)控和管理。

大規(guī)模視頻切換系統(tǒng)基于SKVM over IP技術(shù),支持本地視頻維護(hù)以及基于網(wǎng)絡(luò)的遠(yuǎn)程診斷,并具備極強(qiáng)的擴(kuò)展能力,是目前業(yè)界作為領(lǐng)先的視頻管理解決方案。

圖為GRIDVIEW管理界面

除了安全性能,在散熱設(shè)計(jì)上為了滿足中國地質(zhì)大學(xué)(武漢)超高密的系統(tǒng)散熱要求,服務(wù)器內(nèi)部設(shè)計(jì)了多處專用散熱通道,每個(gè)通道保障不同部件的散熱。通過獨(dú)立散熱通道,對部分發(fā)熱量的部件形成隔離空間,強(qiáng)制形成前后空氣對流,避免對周圍部件的散熱影響。整個(gè)系統(tǒng)風(fēng)扇采用冗余結(jié)構(gòu)設(shè)計(jì)、能快速識別并能快速更換損壞風(fēng)扇,有效保障系統(tǒng)的穩(wěn)定性和系統(tǒng)良好運(yùn)行環(huán)境。

中國地質(zhì)大學(xué)(武漢)學(xué)院采用92臺刀片式服務(wù)器CB65-F作為計(jì)算節(jié)點(diǎn),峰值性能達(dá)到8.87Tflops。

CB65-F是曙光公司最新研發(fā)的新一代刀片式服務(wù)器產(chǎn)品,并專為HPC進(jìn)行優(yōu)化設(shè)計(jì),單節(jié)點(diǎn)linpack效率超過80%。其在國內(nèi)擁有大量部署,如下圖所示為CB65-F的系統(tǒng)結(jié)構(gòu)圖,兩顆處理器通過AMD Hypertransport總線直接實(shí)現(xiàn)互聯(lián),互聯(lián)帶寬高達(dá)8GB/s。每個(gè)處理器通過集成的內(nèi)存控制器訪問四通道內(nèi)存系統(tǒng)。南橋芯片基于高性能的HT2100,實(shí)現(xiàn)2個(gè)高速PCIEx8和2個(gè)千兆以太網(wǎng)擴(kuò)展。

除上述硬件外,中國地質(zhì)大學(xué)武漢學(xué)院選用曙光8-way 64位服務(wù)器A950系統(tǒng)作為胖計(jì)算節(jié)點(diǎn)。共采用2臺曙光8-way A950服務(wù)器、16顆AMD 64位2.5GHz shanghai CPU構(gòu)建胖計(jì)算節(jié)點(diǎn),提供640G flops的主頻峰值計(jì)算能力。曙光A950的優(yōu)勢在于CPU以及內(nèi)存的擴(kuò)展能力,系統(tǒng)支持最多達(dá)32個(gè)CPU的并行編程,并行支持所有的編程模式(共享變量和消息傳遞),具有極高的編程可移植性。同時(shí)系統(tǒng)64位和32位的全方位的支持使得其再開發(fā)和使用高性能計(jì)算機(jī)軟件更加容易,可移植性更強(qiáng)。8P系統(tǒng)中采用交叉互聯(lián)架構(gòu)實(shí)現(xiàn)相距最遠(yuǎn)的兩顆處理器之間最大hops數(shù)由直連架構(gòu)4跳減為3跳,由此大大降低了CPU訪存時(shí)延:

 圖為A950八路64位服務(wù)器系統(tǒng)總體結(jié)構(gòu)圖
中國地質(zhì)大學(xué)為了測試運(yùn)行環(huán)境,對運(yùn)行大型機(jī)的機(jī)房環(huán)境及設(shè)備運(yùn)行環(huán)境進(jìn)行實(shí)時(shí)監(jiān)測:

中國地質(zhì)大學(xué)(武漢)分院表示:學(xué)院云計(jì)算平臺的建立,對我國地質(zhì)勘探等研究領(lǐng)域的貢獻(xiàn)不可估量。感謝曙光高性能計(jì)算在地質(zhì)研究領(lǐng)域多年來積累的豐富經(jīng)驗(yàn),正是出色的技術(shù)實(shí)力和行業(yè)經(jīng)驗(yàn)的結(jié)合,幫助了中國地質(zhì)大學(xué)(武漢)云計(jì)算平臺的搭建與實(shí)際應(yīng)用的需求。

分享到

zhabin

相關(guān)推薦