在浪潮計算機看來,算力不僅僅是高端芯片制造問題,不僅是高端芯片所面臨的一些前所未有的挑戰(zhàn),諸如摩爾定律、登納德縮放定律、以及阿姆達爾定律即將失效的問題等。

李巖指出:“芯片算力真正釋放給客戶得到應用,離不開算力平臺這一關(guān)鍵支撐,上游算力芯片多元化、單芯片高速率、高功耗的發(fā)展趨勢,下游自監(jiān)督、多模態(tài)巨量模型的應用需求,給算力平臺的構(gòu)建帶來了前所未有的挑戰(zhàn),多元算力基礎(chǔ)設(shè)施建設(shè)已經(jīng)開始進入深水區(qū)?!?/p>

“與芯片算力相比,算力平臺不僅是簡單的系統(tǒng)集成,更是一項涉及10000多個零部件、50多類專用芯片、30多個技術(shù)方向、100多種傳輸協(xié)議,從PCB到PCBA再到整機制造會用到150余種加工制造工藝,為了確保數(shù)以萬計零件的正確組裝并能最終釋放出系統(tǒng)最大性能,需要對280多個關(guān)鍵過程控制點的質(zhì)量進行嚴格把控,需要管理平臺對異構(gòu)算力資源的精細化管理,由此可以看出,多元算力平臺的構(gòu)建是一項巨量工程、技術(shù)門檻高、產(chǎn)業(yè)配套難,算力平臺是跨越芯片到應用之間的鴻溝、高效釋放多元芯片算力的關(guān)鍵?!彼f。

從芯片到算力平臺,浪潮計算機在這里揭示了一個簡單的道理:算力不僅是GPU等芯片能力的問題,管理的調(diào)度和協(xié)同管理同樣重要,以AIGC的實踐為例,AIGC的大模型訓練需要強大算力的支撐,需要部署上萬片GPU,通過集群計算來滿足需要。但是仔細觀察GPU使用效率就會發(fā)現(xiàn),這些GPU并沒有達到100%,甚至連50%都沒有,造成算力、能源的浪費??梢哉f,通過堆積GPU滿足算力的需求,是一種簡單粗暴的做法,也是一種相對簡單的做法。

如今摩爾定律紅利不在,傳統(tǒng)方法難以為繼,在這種情況下,浪潮計算機的新思路更加具有可行性。

所謂算力問題,不僅是計算能力的問題,同時也是能耗和安全等問題。以能耗問題為例,國家發(fā)改委相關(guān)數(shù)據(jù)顯示,我國數(shù)據(jù)中心年用電量已占全社會用電的2%左右,且仍在快速增長中。如今,一臺AI服務器功率已經(jīng)達到約為5000w,其使用兩年的電費,就已經(jīng)和服務器整機初始購買成本相當,因此綠色節(jié)能,有效降低運營成本,不僅社會責任問題,同時也是用戶非常關(guān)注的現(xiàn)實問題,也是必須要解決的問題。安全的問題更是首當其沖,如果不能夠?qū)崿F(xiàn)安全可控,沒有堅實的基礎(chǔ),所謂現(xiàn)代化應用無異于沙地建樓。

對于算力問題而言,計算、能耗和安全諸要素之間不是彼此孤立的,更多是交織在一起的。以計算芯片多元異構(gòu)的選擇為例,很多是基于安全和現(xiàn)實的選擇,芯片本身在性能上存在一定差距,但如果能夠在資源效率做到揚長避短,從安全性、成本、綠色節(jié)能上考慮,仍然不是為上佳的選擇。

據(jù)張磊透露:算力平臺中涉及的很多技術(shù),如高密度高速互聯(lián)技術(shù)、動態(tài)電壓頻率調(diào)整技術(shù)、智能能效管理技術(shù),以及整機散熱策略設(shè)計等技術(shù)等均有助于目標的達成和實現(xiàn)。以高速互聯(lián)技術(shù)為例,近年來信號傳輸速率快速增長,PCIe信號速率在4.0之后迭代加速:Gen3 -> Gen4 經(jīng)歷7年,Gen4 – > Gen5 ->Gen6 間隔只有2年,當前最高SerDes速率已經(jīng)達到112Gbps,預計三年內(nèi)會實現(xiàn)翻倍,這對信號完整性設(shè)計帶來更大挑戰(zhàn);再例如電源管理方面,隨著GPU功耗大幅提升,在12V母線架構(gòu)下,母線電流將接近1000A,未來3~5年,核心部件供電電流將大幅增長,CPU功耗提升到500W,供電電流(TDC)將達到330A,這給電源完整性(Power Integrity)設(shè)計帶來更大挑戰(zhàn)。

為應對多元算力基礎(chǔ)設(shè)施建設(shè)面臨的挑戰(zhàn),浪潮計算機提早布局基礎(chǔ)技術(shù)研究方向,持續(xù)攻關(guān)并完成了多項前沿技術(shù)的探索和成果轉(zhuǎn)化。首先是在高密度高速互聯(lián)技術(shù)方面,浪潮計算機開展高精度有限元3D建模仿真技術(shù)研究,挑戰(zhàn)高速信號設(shè)計極限,在相同損耗等級的PCB板材條件下實現(xiàn)了更高的信號傳輸距離;在工業(yè)化大批量制造條件下, 40層以上高密度高速PCB互連實現(xiàn)了56Gpbs以上的速率;其次在高功率服務器系統(tǒng)散熱技術(shù)上,通過采用新型金屬相變導熱材料,在4U空間內(nèi)實現(xiàn)了8卡 500W GPU風冷的散熱;其定向浸沒冷卻技術(shù),則實現(xiàn)了700W以上高功耗芯片的散熱;其創(chuàng)新的風冷液冷混合綠色節(jié)能技術(shù),實現(xiàn)了400W以上中高功耗芯片冷卻,;采用虹吸散熱,波導散熱等提升傳統(tǒng)風冷設(shè)計效率,提升散熱效率50%以上,數(shù)據(jù)中心電力費用每年減少5%以上;采用動態(tài)節(jié)能管理技術(shù),實時調(diào)整電源激活數(shù)量,保證電源50%高效負載,實現(xiàn)整機功耗效率更大化。此外,在面向服務器系統(tǒng)可靠性設(shè)計方面,建立了涵蓋元器件膨脹系數(shù)、運行溫度等十余個加速失效因子模型,驗證了加速因子(Af)與生命周期(Nf)之間關(guān)系。

為了滿足企業(yè)系統(tǒng)對于可靠性的需求,浪潮計算機以整機系統(tǒng)為中心,研究整機可靠性設(shè)計,可管理設(shè)計,易維護設(shè)計技術(shù),提升整機穩(wěn)定性、可靠性。以可靠性設(shè)計為例,基于底層寄存器級故障監(jiān)控機制研發(fā)的底層閾值和漏斗技術(shù),可以識別系統(tǒng)潛在的風險;其功耗封頂技術(shù),則解決了某些異構(gòu)處理器芯片,功耗管理不完善的問題;其創(chuàng)新NVMe熱插拔技術(shù),則彌補了部分處理器功能的不足。其研發(fā)的開發(fā)平臺測試治具、32G高速總線仿真、400A級電源完整性技術(shù)等都填補了國內(nèi)異構(gòu)處理器的空白;浪潮計算機提供的在線升級工具、無人值守安裝以及硬件錯誤信息識別,則讓易維護設(shè)計運維如虎添翼。

浪潮計算機算力平臺的技術(shù)積累為解決算力問題創(chuàng)造了條件,通過開辟了解決問題新的思路。

浪潮計算機推出的整機柜服務器堪稱算力平臺的優(yōu)秀之作。

浪潮整機柜服務器實現(xiàn)機柜與節(jié)點解耦,實現(xiàn)面向通用服務器機型的兼容,用戶能夠按需部署,靈活便捷;實現(xiàn)跨平臺、跨技術(shù)路線的統(tǒng)一納管,屏蔽異構(gòu)差異,無感遷移;浪潮整機柜服務器采用整柜集中供電,電源池化結(jié)合動態(tài)節(jié)能調(diào)節(jié)技術(shù),如此,可以顯著降低數(shù)據(jù)中心電力消耗,讓數(shù)據(jù)中心建設(shè) “更靈活、更高效、更綠色”。

總之,GPU等高端芯片制造不是問題的全部,“更好用、更可靠”終端和服務器才是算力問題的終極體現(xiàn),從這個意義上來說,“更好用、更可靠”的算力,就可以是一道“選擇”題!

對此,你選擇對了嗎?

分享到

songjy

相關(guān)推薦