曙光CAE高性能計算平臺方案示意圖


      曙光CAE高性能計算平臺方案將TC2600刀片和A950r-F SMP完美組合,可同時滿足各類應用程序需求。曙光刀片式服務器TC2600是為了突破計算機系統(tǒng)規(guī)模增加而效能降低的計算機發(fā)展瓶頸而設計推出的。它采用超高密的刀片式服務器架構,內(nèi)置高效網(wǎng)絡交換系統(tǒng),減少網(wǎng)絡延遲;超強的系統(tǒng)處理器擴充能力,最大可支持20顆AMD Opteron雙核處理器;優(yōu)秀的散熱設計,突破1U機架服務器空間設計極限,實現(xiàn)了7U 10片的超高密系統(tǒng)設計;通過系統(tǒng)的整體設計,減少不必要的功耗,有效降低整體系統(tǒng)功耗;同時引入了人性化的設計理念,處處體現(xiàn)以人為本的設計思想,是易管理、易維護、高可用的新一代服務器產(chǎn)品。TC2600是曙光人在服務器領域長期致力計算機技術研究的又一成功技術結晶。
  
      整合高速網(wǎng)絡系統(tǒng)設計:曙光TC2600刀片式服務器內(nèi)部集成20Gb/s高速Infiniband交換網(wǎng)絡,整合了全線速以太網(wǎng)交換機。同時可選的IOE擴展系統(tǒng)可以使用戶將工業(yè)標準部件如HBA卡、Raid卡以及Infiniband網(wǎng)絡等集成到刀片服務器系統(tǒng)中,而不必像購買其他品牌刀片服務器時遇到的需要花費高額費用去購買硬件廠商的專用部件。
  
      整合KVM Over-On-IP系統(tǒng):為減少鍵盤、鼠標和顯示器纜線管理的困擾,曙光將KVM Switch技術整合進TC2600服務器系統(tǒng),可使10個子系統(tǒng)共享一套設備,而系統(tǒng)與系統(tǒng)間可透過單一纜線連接,可使多套TC2600服務器僅以一條纜線共享一套KVM裝置,并可以通過遠程管理服務器系統(tǒng)。
  
      高可靠的產(chǎn)品設計:曙光TC2600刀片式服務器采用全冗余結構設計,可以極大的保障電源系統(tǒng)、散熱系統(tǒng)、存儲系統(tǒng)等的高可用性,提高了整體系統(tǒng)的穩(wěn)定性。同時TC2600還提供對所有部件監(jiān)控的系統(tǒng)管理機制,如組件的狀態(tài)是否正常,操作電壓是否正常,系統(tǒng)散熱是否正常,溫度是否偏高等等。
  優(yōu)秀的管理軟件:曙光TC2600配備了強大的管理軟件系統(tǒng),并支持基于IPMI的遠程管理,用戶可以通過RJ45網(wǎng)絡管理端口連接到曙光TC2600刀片服務器系統(tǒng)。如下圖所示,界面顯示了每個TC2600刀片機箱的主要部件狀態(tài)情況,通過點擊圖標便可以查詢每個部件的詳細信息。




  曙光TC2600刀片管理界面


  
      曙光A950r-F SMP小型機是基于X86結構的服務器,在繼承傳統(tǒng)小型機優(yōu)勢的同時,有效地解決了傳統(tǒng)小型機無法克服的如價格昂貴,可購買CPU數(shù)量有限,無法用于大規(guī)模優(yōu)化設計任務,與X86結構集群服務器操作系統(tǒng)、應用軟件無法兼容等弊端。


      曙光TC2600刀片服務器特別適合運行Fluent、CFX、Ls-Dyna、Pam-Crash等分布式內(nèi)存應用程序,曙光A950r-F SMP小型機則特別適合運行Ansys,Abaqus、Nastran等共享內(nèi)存應用程序,且兩者均采用X86-64平臺,屬同構系統(tǒng),可共享軟件資源和數(shù)據(jù)存儲空間,資源調(diào)度簡單,節(jié)點配比可靈活調(diào)整,二者有機結合,幾乎可以適用各種應用需求,能夠有效降低用戶總體擁有成本。
  
      曙光CAE:成功突破系統(tǒng)IO瓶頸
  
      曙光針對分布式機群環(huán)境和SMP計算環(huán)境設計了一整套SAN存儲網(wǎng)絡和IP SAN存儲網(wǎng)絡解決方案。
  IO節(jié)點采用2臺A620r-F,配置2顆2000系列雙核AMD處理器和16GB DDR2 內(nèi)存,通過配置4Gb/s的光纖HBA卡連接到SAN存儲網(wǎng)絡提高IO性能。對于TC2600刀片機群系統(tǒng),每個計算節(jié)點通過NFS over SDP方式掛載(mount)兩個IO節(jié)點的存儲空間;對于兩個管理登陸節(jié)點,同樣通過NFS over SDP方式掛載(mount)兩個IO節(jié)點的磁盤分區(qū),并將用戶分成兩類后把主目錄放在共享分區(qū)中以減輕文件系統(tǒng)壓力,同樣的,應用軟件也分成兩類安裝到兩個共享分區(qū)中。
  
      對于SMP計算節(jié)點,由于對存儲性能要求較高,最好不要采用NFS文件系統(tǒng),而是采用直接接入SAN網(wǎng)絡的方式。Nastran等結構類計算程序安裝在兩臺SMP節(jié)點上,計算中間數(shù)據(jù)和結果數(shù)據(jù)存放在本地掛載的SAN空間,實際作業(yè)調(diào)度時應避免跨節(jié)點執(zhí)行應用程序。此外,SMP節(jié)點還需要掛載IO節(jié)點NFS數(shù)據(jù)繼承用戶主目錄信息。



   
      優(yōu)化的網(wǎng)絡系統(tǒng)設計,高速計算的有力保障



      根據(jù)上面的分析,我們建議高性能計算平臺采用20Gb/s的Infiniband網(wǎng)絡來構建,并將管理IO節(jié)點連入高速網(wǎng)絡,通過采用NFS over Infiniband實現(xiàn)全部計算節(jié)點的數(shù)據(jù)共享。
  
      曙光公司與中科院某研究所對最新版Fluent的性能進行了測試,算例網(wǎng)格單元為90萬左右,采用湍流雙方程模型和PDF燃燒模型,測試硬件為8個雙路AMD雙核的節(jié)點,網(wǎng)絡為千兆網(wǎng)和Infiniband網(wǎng)絡。測試結果表明千兆網(wǎng)環(huán)境下16CPU核心內(nèi)可以保持較好的性能加速,而32CPU核心時由于傳遞的消息量劇增至上萬個每秒,千兆網(wǎng)絡已經(jīng)無法繼續(xù)提升性能,而此時Infiniband網(wǎng)絡則可以繼續(xù)保持線性加速。
  
      曙光公司和Qlogic公司進行了相關性能測試,測試結果表明基于Infiniband的NFS可以大幅提高IO能力,尤其是并發(fā)的IO能力,進而可以提高計算效率。


       DCAS??界面友好,功能強大的管理系統(tǒng)


      DCAS是曙光專為百萬億次高性能計算機系統(tǒng)開發(fā)集群管理套件,用于對集群系統(tǒng)進行統(tǒng)一管理,包含了新一代的作業(yè)調(diào)度系統(tǒng)??DCJM。它采用基于IE瀏覽器的圖形化方式來實現(xiàn)對集群的統(tǒng)一管理,包括系統(tǒng)安裝部署、網(wǎng)絡配置、作業(yè)管理、安全配置、用戶管理、進程以及服務管理和交互式并行命令執(zhí)行系統(tǒng)等,配置簡單、使用方便。除了同樣具有較高的可用性和可管理性,可以滿足絕大部分應用場合的需要外,DCJM還具有中英文兩種語言可選,更符合國人的使用習慣,以及高性價比的特點。



  曙光DCAS操作界面


      以上為曙光CAE高性能計算平臺的一個參考解決方案。針對每一個用戶,曙光公司將具體分析用戶的實際需求,包括計算規(guī)模、用戶數(shù)量、算例大小、模型特點以及上文提到的兩類程序所占的比例等等信息,在該方案的基礎上進行合理修改,并進行相關細節(jié)的設計,制定出最適合用戶的優(yōu)化方案。

分享到

多易

相關推薦