英特爾與上海交大的合作可以追溯到2013年,2013年上海交大建設(shè)的“π1.0”超算中心,當(dāng)時這一超算中心的計算能力在國內(nèi)高校中排在第一位,性能夠好,夠穩(wěn)定,但五年之后,這些資源明顯已經(jīng)不夠用了。2018年,在上海交大校領(lǐng)導(dǎo)的支持下,林新華所在的網(wǎng)絡(luò)信息中心計算部開始建設(shè)二期項目。
高校超算發(fā)展簡史
林新華是非常資深的專家,對超算在中國,尤其對高校超算的發(fā)展歷史非常熟悉。他記得,在他上學(xué)的時候,高校機(jī)房里的高性能計算機(jī)都是小型機(jī),大都來自IBM、SGI這樣的廠商。這一局面在2010年前后開始有很大改觀,業(yè)內(nèi)開始用英特爾的x86架構(gòu)CPU構(gòu)建集群,國內(nèi)高校也都紛紛效仿。
基于x86架構(gòu)的超算降低了成本帶來了很高的開放性和靈活性,超算行業(yè)也步入發(fā)展快車道,而在學(xué)校,由于各個院系都在構(gòu)建超算集群,超算的資源利用率開始成為新的問題,需要有專業(yè)的技術(shù)團(tuán)隊去維護(hù)超算中心,學(xué)校的領(lǐng)導(dǎo)也意識到必須有專門的隊伍去維護(hù)超算設(shè)施,讓專業(yè)的人做專業(yè)的事兒,使用者可以把精力放在自己本身的業(yè)務(wù)上。
超算資源是戰(zhàn)略資源,很多科研工作都需要超算,在學(xué)校,用超算的人也越來越多了,林新華介紹說,很多現(xiàn)在的學(xué)科都需要做一些計算,傳統(tǒng)的數(shù)值模擬仿真是一類,新興的AI計算用的也越來越多,現(xiàn)在開始流行用AI的方式來做材料科學(xué)研究,一批新的計算負(fù)載開始出現(xiàn)。于是,上海交大的π集群就不夠用了。
二期項目在技術(shù)方面得到了英特爾的大力支持,與英特爾技術(shù)團(tuán)隊的多次溝通后,最終決定選擇當(dāng)時還未發(fā)布的Cascade Lake處理器。林新華表示,之所以選擇這款處理器,除了看中性能以外,還特別看中新處理器能支持智能應(yīng)用程序這點。
上海交大“π2.0”超算系統(tǒng)
在上海交大構(gòu)建的“π2.0”超算系統(tǒng)中,計算存儲和網(wǎng)絡(luò)三部分都有創(chuàng)新,三大創(chuàng)新都有英特爾的身影。
在計算方面,π2.0系統(tǒng)采用了第二代至強(qiáng)可擴(kuò)展處理器,采用了658臺雙路節(jié)點,1316顆第二代至強(qiáng)金牌6248處理器,雙精度浮點理論性能能達(dá)到2.1PFlops。在應(yīng)用負(fù)載方面,新一代的處理器既支持傳統(tǒng)HPC負(fù)載又面向AI負(fù)載進(jìn)行優(yōu)化。
在高速互連方面,π2.0采用了英特爾Omni-Path架構(gòu),可以幫助MPI應(yīng)用平滑升級,無需更改代碼就能將應(yīng)用遷移到新的架構(gòu)?;贠mni-Path架構(gòu)的交換機(jī)芯片支持48端口,單交換機(jī)支持最多1152個端口。
在存儲方面,π2.0還構(gòu)建了中國高校第一臺全閃存NVMe Lustre存儲系統(tǒng),這一系統(tǒng)基于開源分布式架構(gòu),集合了英特爾兩種創(chuàng)新硬件方案,DC P4610 NVMe SSD和OPA卡,分布式存儲系統(tǒng)Lustre是支持HPC仿真環(huán)境的并行文件系統(tǒng)。
一體化的方案,性能大幅提升
π2.0超算系統(tǒng)較為全面的采用了英特爾一體化的HPC解決方案,整體性能都達(dá)到了很好的效果,計算和存儲性能顯著提升。林新華介紹說,與π1.0相比,π2.0在單節(jié)點的計算能力提升了4.5倍,四節(jié)點的性能提升了4.7倍。存儲方面,傳輸速度能達(dá)到每秒15GB/s,相比原有系統(tǒng)性能提升了五倍。
系統(tǒng)升級的苦很多人都有體會,PC的Windows升級,手里的安卓IOS設(shè)備升級,多少都會有點問題,有部分APP都不支持新系統(tǒng)。
而在上海交大的這次更新中,令林新華感到意外的是,系統(tǒng)升級遷移程序的時候,完全無需修改代碼,直接拿源代碼即可運行。從一個平臺搬到另外一個平臺通常都需要去改源代碼,這對學(xué)校的老師有非常大的困擾,就像搬家一樣麻煩,如果說可以拎包入住,原來有的東西這里都有,這該有多大的吸引力?
從上海交大此次升級π2.0系統(tǒng)的實踐中,我們看到高校對于超算中心的重視,在技術(shù)實踐上,中國高校在基礎(chǔ)設(shè)施方面走在了世界前沿。林新華介紹說,國內(nèi)高校在高性能計算方面有很大投入,許多知名高校都有非常好的計算平臺支持,而且這些計算平臺哪怕放到美國、日本、歐洲國家相比也都不算差。