在浪潮計算機看來,算力不僅僅是高端芯片制造問題,不僅是高端芯片所面臨的一些前所未有的挑戰(zhàn),諸如摩爾定律、登納德縮放定律、以及阿姆達爾定律即將失效的問題等。

李巖指出:“芯片算力真正釋放給客戶得到應用,離不開算力平臺這一關鍵支撐,上游算力芯片多元化、單芯片高速率、高功耗的發(fā)展趨勢,下游自監(jiān)督、多模態(tài)巨量模型的應用需求,給算力平臺的構建帶來了前所未有的挑戰(zhàn),多元算力基礎設施建設已經開始進入深水區(qū)?!?/p>

“與芯片算力相比,算力平臺不僅是簡單的系統(tǒng)集成,更是一項涉及10000多個零部件、50多類專用芯片、30多個技術方向、100多種傳輸協(xié)議,從PCB到PCBA再到整機制造會用到150余種加工制造工藝,為了確保數以萬計零件的正確組裝并能最終釋放出系統(tǒng)最大性能,需要對280多個關鍵過程控制點的質量進行嚴格把控,需要管理平臺對異構算力資源的精細化管理,由此可以看出,多元算力平臺的構建是一項巨量工程、技術門檻高、產業(yè)配套難,算力平臺是跨越芯片到應用之間的鴻溝、高效釋放多元芯片算力的關鍵。”他說。

從芯片到算力平臺,浪潮計算機在這里揭示了一個簡單的道理:算力不僅是GPU等芯片能力的問題,管理的調度和協(xié)同管理同樣重要,以AIGC的實踐為例,AIGC的大模型訓練需要強大算力的支撐,需要部署上萬片GPU,通過集群計算來滿足需要。但是仔細觀察GPU使用效率就會發(fā)現(xiàn),這些GPU并沒有達到100%,甚至連50%都沒有,造成算力、能源的浪費??梢哉f,通過堆積GPU滿足算力的需求,是一種簡單粗暴的做法,也是一種相對簡單的做法。

如今摩爾定律紅利不在,傳統(tǒng)方法難以為繼,在這種情況下,浪潮計算機的新思路更加具有可行性。

所謂算力問題,不僅是計算能力的問題,同時也是能耗和安全等問題。以能耗問題為例,國家發(fā)改委相關數據顯示,我國數據中心年用電量已占全社會用電的2%左右,且仍在快速增長中。如今,一臺AI服務器功率已經達到約為5000w,其使用兩年的電費,就已經和服務器整機初始購買成本相當,因此綠色節(jié)能,有效降低運營成本,不僅社會責任問題,同時也是用戶非常關注的現(xiàn)實問題,也是必須要解決的問題。安全的問題更是首當其沖,如果不能夠實現(xiàn)安全可控,沒有堅實的基礎,所謂現(xiàn)代化應用無異于沙地建樓。

對于算力問題而言,計算、能耗和安全諸要素之間不是彼此孤立的,更多是交織在一起的。以計算芯片多元異構的選擇為例,很多是基于安全和現(xiàn)實的選擇,芯片本身在性能上存在一定差距,但如果能夠在資源效率做到揚長避短,從安全性、成本、綠色節(jié)能上考慮,仍然不是為上佳的選擇。

據張磊透露:算力平臺中涉及的很多技術,如高密度高速互聯(lián)技術、動態(tài)電壓頻率調整技術、智能能效管理技術,以及整機散熱策略設計等技術等均有助于目標的達成和實現(xiàn)。以高速互聯(lián)技術為例,近年來信號傳輸速率快速增長,PCIe信號速率在4.0之后迭代加速:Gen3 -> Gen4 經歷7年,Gen4 – > Gen5 ->Gen6 間隔只有2年,當前最高SerDes速率已經達到112Gbps,預計三年內會實現(xiàn)翻倍,這對信號完整性設計帶來更大挑戰(zhàn);再例如電源管理方面,隨著GPU功耗大幅提升,在12V母線架構下,母線電流將接近1000A,未來3~5年,核心部件供電電流將大幅增長,CPU功耗提升到500W,供電電流(TDC)將達到330A,這給電源完整性(Power Integrity)設計帶來更大挑戰(zhàn)。

為應對多元算力基礎設施建設面臨的挑戰(zhàn),浪潮計算機提早布局基礎技術研究方向,持續(xù)攻關并完成了多項前沿技術的探索和成果轉化。首先是在高密度高速互聯(lián)技術方面,浪潮計算機開展高精度有限元3D建模仿真技術研究,挑戰(zhàn)高速信號設計極限,在相同損耗等級的PCB板材條件下實現(xiàn)了更高的信號傳輸距離;在工業(yè)化大批量制造條件下, 40層以上高密度高速PCB互連實現(xiàn)了56Gpbs以上的速率;其次在高功率服務器系統(tǒng)散熱技術上,通過采用新型金屬相變導熱材料,在4U空間內實現(xiàn)了8卡 500W GPU風冷的散熱;其定向浸沒冷卻技術,則實現(xiàn)了700W以上高功耗芯片的散熱;其創(chuàng)新的風冷液冷混合綠色節(jié)能技術,實現(xiàn)了400W以上中高功耗芯片冷卻,;采用虹吸散熱,波導散熱等提升傳統(tǒng)風冷設計效率,提升散熱效率50%以上,數據中心電力費用每年減少5%以上;采用動態(tài)節(jié)能管理技術,實時調整電源激活數量,保證電源50%高效負載,實現(xiàn)整機功耗效率更大化。此外,在面向服務器系統(tǒng)可靠性設計方面,建立了涵蓋元器件膨脹系數、運行溫度等十余個加速失效因子模型,驗證了加速因子(Af)與生命周期(Nf)之間關系。

為了滿足企業(yè)系統(tǒng)對于可靠性的需求,浪潮計算機以整機系統(tǒng)為中心,研究整機可靠性設計,可管理設計,易維護設計技術,提升整機穩(wěn)定性、可靠性。以可靠性設計為例,基于底層寄存器級故障監(jiān)控機制研發(fā)的底層閾值和漏斗技術,可以識別系統(tǒng)潛在的風險;其功耗封頂技術,則解決了某些異構處理器芯片,功耗管理不完善的問題;其創(chuàng)新NVMe熱插拔技術,則彌補了部分處理器功能的不足。其研發(fā)的開發(fā)平臺測試治具、32G高速總線仿真、400A級電源完整性技術等都填補了國內異構處理器的空白;浪潮計算機提供的在線升級工具、無人值守安裝以及硬件錯誤信息識別,則讓易維護設計運維如虎添翼。

浪潮計算機算力平臺的技術積累為解決算力問題創(chuàng)造了條件,通過開辟了解決問題新的思路。

浪潮計算機推出的整機柜服務器堪稱算力平臺的優(yōu)秀之作。

浪潮整機柜服務器實現(xiàn)機柜與節(jié)點解耦,實現(xiàn)面向通用服務器機型的兼容,用戶能夠按需部署,靈活便捷;實現(xiàn)跨平臺、跨技術路線的統(tǒng)一納管,屏蔽異構差異,無感遷移;浪潮整機柜服務器采用整柜集中供電,電源池化結合動態(tài)節(jié)能調節(jié)技術,如此,可以顯著降低數據中心電力消耗,讓數據中心建設 “更靈活、更高效、更綠色”。

總之,GPU等高端芯片制造不是問題的全部,“更好用、更可靠”終端和服務器才是算力問題的終極體現(xiàn),從這個意義上來說,“更好用、更可靠”的算力,就可以是一道“選擇”題!

對此,你選擇對了嗎?

分享到

songjy

相關推薦