“我在一個(gè)偶然的情況下成為L(zhǎng)INPACK基準(zhǔn)測(cè)試程序開發(fā)者的。”2022年12月12日,超算ISC TOP 500基準(zhǔn)測(cè)試的LINPACK軟件包開發(fā)者,美國(guó)田納西大學(xué)的教授和國(guó)家橡樹嶺國(guó)家實(shí)驗(yàn)室專家Jack Dangarra先生在以線上方式舉行的第十八屆CCF全國(guó)高性能計(jì)算學(xué)術(shù)年會(huì)(以下簡(jiǎn)稱CCF HPC China 2022) 上回顧了這一基準(zhǔn)測(cè)試程序的問世過程。

偶然的LINPACK基準(zhǔn)測(cè)試程序開發(fā)者

在上世紀(jì)70年代,美國(guó)田納西大學(xué)工作的Jack Dangarra教授開始動(dòng)筆編寫一個(gè)基準(zhǔn)測(cè)試,他的意圖是讓計(jì)算機(jī)通過線性運(yùn)算求解一個(gè)方程組,這個(gè)基準(zhǔn)測(cè)試軟件包對(duì)計(jì)算結(jié)果進(jìn)行計(jì)時(shí),最終根據(jù)解決問題所花費(fèi)的時(shí)間對(duì)計(jì)算機(jī)速率進(jìn)行排名或評(píng)級(jí)。

1979年在LINPACK用戶指南的附錄中,Jack Dangarra教授發(fā)布了第一個(gè)基準(zhǔn)測(cè)試報(bào)告。從那時(shí)起,他就一直在收集信息。第一個(gè)基準(zhǔn)測(cè)試報(bào)告的計(jì)算機(jī)覆蓋了多個(gè)計(jì)算機(jī),從CRAY-1到DEC PDP-10。

后來,運(yùn)行時(shí)間被轉(zhuǎn)換為浮點(diǎn)執(zhí)行速率。1977年排名時(shí)算力最強(qiáng)的計(jì)算機(jī)是美國(guó)國(guó)家大氣研究所的CRAY-1,它的運(yùn)算速率達(dá)到了14MFlop/s。

從那以后,LINPACK基準(zhǔn)測(cè)時(shí)經(jīng)歷了許多變革和改進(jìn)。不久后,Jack Dangarra教授發(fā)現(xiàn)Erich Strohmaier博士和來自德國(guó)的Hand Meuer也根據(jù)性能峰值變比了計(jì)算機(jī)排名。雙方?jīng)Q定把兩個(gè)列表整合在一起。

這就是全球超級(jí)計(jì)算機(jī)TOP 500名排名的來源,并成為全球最快超級(jí)計(jì)算機(jī)的權(quán)威評(píng)判標(biāo)準(zhǔn)。

該榜單每年發(fā)布兩次,通常在每年的11月和6月發(fā)布。最新的名單發(fā)布于2022年6月。

“您可以在任何計(jì)算機(jī)上運(yùn)行這個(gè)基準(zhǔn)測(cè)試?!盝ack Dangarra教授用他的那臺(tái)蘋果Mac筆記本電腦對(duì)基準(zhǔn)測(cè)試市場(chǎng)問題求解的運(yùn)行結(jié)果是166GFlop/s。這意味著什么?這臺(tái)筆記本電腦實(shí)際上比1993年前排名第一的超級(jí)計(jì)算機(jī)還要快——1993年排名第一的是一臺(tái)Think Machines的CM-5,這是一臺(tái)帶有1000個(gè)處理器的超級(jí)計(jì)算機(jī),當(dāng)時(shí)在Los Alamos國(guó)家實(shí)驗(yàn)室用于核武器的設(shè)計(jì)。

“現(xiàn)在性能相當(dāng)?shù)倪@臺(tái)筆記本電腦卻只用于用收發(fā)郵件或演講?!盝ack Dangarra教授風(fēng)趣地說。

全球最快的超級(jí)計(jì)算機(jī)Frontier

在2022年6月發(fā)布的排名前十的超級(jí)計(jì)算機(jī)名單中可以看到,全球最快的超級(jí)計(jì)算機(jī)Frontier由HPE組建成,它使用了AMD處理器和AMD加速器,由CRAY制造的互聯(lián)芯片組連接,這就是用來運(yùn)行基準(zhǔn)測(cè)試的處理單元。

要指出的是,1.1EFlop/s的速度是理論峰值(2EFlop/s)的55%。這意味著還有很大的性能提升空間。

Frontier比排名第二的日本超級(jí)計(jì)算機(jī)“富岳”(Fagaku)整整快了2.49倍;前十的機(jī)器的性能超過了TOP 500算力總和的一半,500臺(tái)超級(jí)計(jì)算機(jī)的算力綜合約為4.4EFlop/s。

要想進(jìn)入排名前十,速度至少要取得1.52PFlop/s。

可以看到,美國(guó)有5臺(tái)機(jī)器進(jìn)入了前10名。

中國(guó)有兩臺(tái)機(jī)器進(jìn)入前十,一臺(tái)是神威太湖之光,一個(gè)是天河二號(hào)。太湖之光使用的是中國(guó)自主研發(fā)設(shè)計(jì)的處理器,天河二號(hào)使用的是英特爾處理器和中國(guó)設(shè)計(jì)的加速器,所有這些超級(jí)計(jì)算機(jī)都采用了定制互聯(lián)芯片。

排名中還有芬蘭和法國(guó)的機(jī)器也是首次躋身榜單前十,其性能表現(xiàn)出色,給人留下深刻印象。

Jack Dangarra教授對(duì)Frontier念念不忘——畢竟——他是Frontier所在的橡樹嶺國(guó)家實(shí)驗(yàn)室杰出一員。

Frontier占地面積約有兩個(gè)網(wǎng)球場(chǎng)那么大,大約有773萬個(gè)內(nèi)核,由9408個(gè)節(jié)點(diǎn)組成,每個(gè)節(jié)點(diǎn)有一個(gè)AMD EPYC 7A53 CPU和四個(gè) AMD Instinct MI250X 加速卡組成,這臺(tái)超級(jí)計(jì)算機(jī)上有37000個(gè)加速器。這些GPU被用來進(jìn)行加速和提升性能。在超級(jí)計(jì)算機(jī)中,98%的性能來自GPU,CPU本身對(duì)性能的貢獻(xiàn)很小。

Frontier的性能高居榜首,其運(yùn)行功耗也相當(dāng)厲害——已經(jīng)達(dá)到了30MW。1MW是什么含義?

“設(shè)想一下,如果我的房子里一年消耗1MW的電量,我將收到100萬美元的賬單。所以運(yùn)行這些設(shè)備的成本是非常昂貴的?!盝ack Dangarra教授說。

昂貴的不只是用電成本:Frontier采用的是一個(gè)異構(gòu)的計(jì)算環(huán)境,一般在處理器和商用GPU上運(yùn)行,因此各部件之間的通信成本是非常昂貴的。

Jack Dangarra教授提醒說,在應(yīng)用Frontier的時(shí)候要始終意識(shí)到這一點(diǎn):當(dāng)我們進(jìn)行計(jì)算時(shí),要盡量降低通信成本。

超級(jí)計(jì)算機(jī)以EFlop/s為單位,什么是EFlop/s?

浮點(diǎn)運(yùn)算是64位浮點(diǎn)數(shù)的加法或乘法,這就是通常所說的浮點(diǎn)運(yùn)算或Flop/s。一個(gè)EFlop/s是每秒100億億次浮點(diǎn)運(yùn)算或者每秒10的18次方浮點(diǎn)運(yùn)算。

如果讓全世界的每個(gè)人每秒計(jì)算一次,那么需要四年的時(shí)間才能完成一臺(tái)EFlop/s級(jí)計(jì)算機(jī)一秒鐘內(nèi)可以完成的運(yùn)算。超級(jí)計(jì)算機(jī)實(shí)現(xiàn)的就是這樣的算力。

值得注意的是,使用較低的精度,可以獲得性能上的提升。

也就是說,如果使用16位浮點(diǎn)運(yùn)算取代64位浮點(diǎn)運(yùn)算,那么Frontier性能可以達(dá)到11EFlop/s。

中國(guó)與超級(jí)計(jì)算機(jī):最大的消費(fèi)國(guó)和生產(chǎn)國(guó)

“中國(guó)是超級(jí)計(jì)算的最大消費(fèi)國(guó)和生產(chǎn)國(guó),目前還有兩臺(tái)E級(jí)超級(jí)計(jì)算機(jī)!”Jack Dangarra 語(yǔ)出驚人,看得出他對(duì)中國(guó)在超算領(lǐng)域的快速發(fā)展密切關(guān)注。

中國(guó)是超級(jí)計(jì)算的最大消費(fèi)國(guó)和生產(chǎn)國(guó),從TOP 500排名中可以看到這一點(diǎn);英特爾處理器占了最大的份額,排名前500位的超級(jí)計(jì)算機(jī)中有78%采用的是英特爾的處理器,AMD占據(jù)19%;從架構(gòu)來看,英特爾和Amd都是x86架構(gòu),在超級(jí)計(jì)算機(jī)的TOP 500名中占據(jù)了97%的份額。

在各個(gè)國(guó)家的超級(jí)計(jì)算機(jī)數(shù)量中,中國(guó)擁有最多的173臺(tái)超級(jí)計(jì)算機(jī),美國(guó)第二,共128臺(tái),其后是日本、德國(guó)、法國(guó)。中國(guó)不僅是消費(fèi)最多的超級(jí)計(jì)算機(jī),還制造了最多的超級(jí)的計(jì)算機(jī),主要的中國(guó)的公司是inspire、曙光和聯(lián)想。

有傳言說中國(guó)有兩臺(tái)億級(jí)超級(jí)計(jì)算機(jī),廣州有一家被稱為海洋之光的,采用的是申威處理器,據(jù)稱這臺(tái)機(jī)器的運(yùn)算速度超過了1EFlop/s,但他們還沒有將結(jié)果提交給基準(zhǔn)測(cè)試結(jié)果。

“我們是知道有這臺(tái)機(jī)器的存在的。因?yàn)橐呀?jīng)有科研人員根據(jù)在這臺(tái)超級(jí)計(jì)算機(jī)上進(jìn)行的研究發(fā)表了論文并在2021年獲得了一個(gè)非常著名的戈登貝爾獎(jiǎng)。他們就是使用海洋之光系統(tǒng)開始的計(jì)算。”Jack Dangarra說。

“在天津,還有另一臺(tái)機(jī)器使用了中國(guó)自研的處理器和加速器的超級(jí)計(jì)算機(jī)。”Jack Dangarra教授繼續(xù)抖包袱:“我們認(rèn)為它在基準(zhǔn)測(cè)試上的表現(xiàn)也略有超過1EFlop/s。但這些結(jié)果還沒有正式提交給TOP 500排名。這很容易做到,但他們還沒有結(jié)果?!?/p>

改變超級(jí)計(jì)算機(jī)的趨勢(shì)

今天,人們擁有獲取數(shù)據(jù)的手段越來越多,尤其是通過互聯(lián)網(wǎng)可以收集數(shù)據(jù),數(shù)據(jù)越來越豐富,有力地促進(jìn)了機(jī)器學(xué)習(xí)和人工智能的研究,特殊的硬件也在有效地解決各個(gè)問題之中。

人工智能包含了豐富的構(gòu)想和概念。機(jī)器學(xué)習(xí)是人工智能的一種,自然語(yǔ)言處理、專家系統(tǒng),視覺、語(yǔ)音、智能規(guī)劃、機(jī)機(jī)器人都適用于人工智能這個(gè)大保護(hù)傘下,研究深度神經(jīng)網(wǎng)絡(luò)。

越來越多的人工智能應(yīng)用于計(jì)算科學(xué)應(yīng)用方向,比如在氣候研究、生物學(xué)、藥物發(fā)現(xiàn)、材料開發(fā)、高能物理學(xué)以及宇宙學(xué)中,真正增強(qiáng)了科學(xué)發(fā)現(xiàn)的能力。

1997年,第一臺(tái)Terascale超級(jí)計(jì)算機(jī)誕生,到2008年,第一臺(tái)petascale規(guī)模機(jī)器問世,大約11年間,在性能上有了三個(gè)數(shù)量級(jí)的提升。如今,人們花了14年時(shí)間將性能提高到新的水平,也就是新的三個(gè)水平和量級(jí)。

未來會(huì)發(fā)生什么、要花多長(zhǎng)時(shí)間才能達(dá)到下一個(gè)三個(gè)數(shù)量級(jí)——zetascale?

Jack Dangarra教授的演講中滿是對(duì)未來的探索:“我猜應(yīng)該超過14年。時(shí)間會(huì)證明一切?!?/p>

他還談到了“HPCG”,這個(gè)在Linpack基礎(chǔ)上進(jìn)行開發(fā)的基準(zhǔn)測(cè)試將更適于超級(jí)計(jì)算機(jī)在新時(shí)代更多不同場(chǎng)景,比如,用于求解三維偏微分方程。今天排名第一的超級(jí)計(jì)算機(jī)是日本的富岳,它在這個(gè)基準(zhǔn)上達(dá)到了16PFlop/s,這是理論峰值性能的3%。顯然,這個(gè)基準(zhǔn)展示了一個(gè)不同水平的性能。

在Jack Dangarra教授眼中,這意味著,有效利用機(jī)器的算法和軟件,還有很多改進(jìn)的空間。

后摩爾時(shí)代,未來的高性能計(jì)算將如何發(fā)展?

“改變超級(jí)計(jì)算機(jī)的,除了基準(zhǔn)測(cè)試、軟硬件還有人工智能和機(jī)器學(xué)習(xí)?!盝ack Dangarra教授指出。

目前,為超級(jí)計(jì)算機(jī)搭建的架構(gòu)采用的是CPU和GPU組合,未來可能會(huì)在這一基礎(chǔ)上進(jìn)一步擴(kuò)展,不僅有GPU,有機(jī)器學(xué)習(xí)設(shè)備,還會(huì)有神經(jīng)系統(tǒng),以及量子計(jì)算技術(shù),甚至光學(xué)計(jì)算都會(huì)加入進(jìn)來,幫助解決多種計(jì)算問題的綜合。

“未來的系統(tǒng)可能會(huì)由很多這樣的部件組成,作為用戶,你可以為你的特定工作組合、應(yīng)用程序等撥號(hào)將其加入到你的配置中。”Jack Dangarra教授說。

高性能計(jì)算在不斷變化。從標(biāo)量開始,發(fā)展到了向量計(jì)算,后來又有了分布式計(jì)算。對(duì)于加速計(jì)算,今天人們使用混合浮點(diǎn)精細(xì)度來幫助這些計(jì)算。

Jack Dangarra教授表示,人們歷經(jīng)了三場(chǎng)計(jì)算機(jī)革命,一場(chǎng)是高性能計(jì)算,另一場(chǎng)是深度學(xué)習(xí),第三場(chǎng)是邊界或人工智能計(jì)算,軟件和算法在某種意義上緊隨硬件之后。

一提到硬件,人們往往就會(huì)想到,硬件廠商開發(fā)出先進(jìn)的設(shè)備,而軟件和開發(fā)人員就不遺余力地發(fā)掘使用新硬件、新計(jì)算系統(tǒng)的各種方法,然后用接下來的兩三年時(shí)間來解決計(jì)算問題,就像重復(fù)罰款一樣。

足夠的空間驅(qū)動(dòng)計(jì)算機(jī)性能的提升,并且會(huì)提升越來越多。

Jack Dangarra教授于2022年10月13日榮獲美國(guó)計(jì)算機(jī)協(xié)會(huì)(ACM)頒發(fā)的 2021 年圖靈獎(jiǎng)。圖靈獎(jiǎng)常被稱作“計(jì)算機(jī)界的諾貝爾獎(jiǎng)”。

此前,Jack Dangarra教授曾于2014年11月6日在HPC大會(huì)上發(fā)表主題為《Algorithmic and Software Challengesat ExtremeScales》的報(bào)告,探討了High Performance Linpack(HPL)和真實(shí)的應(yīng)用性能之間的缺口,以及高性能計(jì)算遇到的挑戰(zhàn)和未來趨勢(shì)。

分享到

xiesc

相關(guān)推薦