論壇以“筑基·開放·燎原”為核心導(dǎo)向,聚焦GW(吉瓦,也即百萬千瓦級(jí))級(jí)開放智算中心(Open AIDC)的技術(shù)突破與產(chǎn)業(yè)落地,匯聚阿里云、百度、中國移動(dòng)、快手、世紀(jì)互聯(lián)、電子標(biāo)準(zhǔn)院、浪潮信息、廣東省連接器協(xié)會(huì)、立訊技術(shù)、安瀾萬錦、億緯鋰能、中航光電等12家產(chǎn)業(yè)鏈核心企業(yè)與機(jī)構(gòu)代表,共同參與“GW級(jí)開放智算中心OCP中國社區(qū)小組”成立儀式,并圍繞智算基礎(chǔ)設(shè)施的異構(gòu)計(jì)算、高速互連、散熱、供電和備電等關(guān)鍵領(lǐng)域展開深度研討,為全球AI算力密集型發(fā)展階段提供“中國方案”。

重磅啟動(dòng):GW級(jí)開放智算中心工作組成立,構(gòu)建全球協(xié)同創(chuàng)新生態(tài)

隨著OpenAI、xAI、微軟、阿里等AI領(lǐng)軍企業(yè)加速布局GW級(jí)智算中心,國內(nèi)AI產(chǎn)業(yè)對(duì)高密度、低時(shí)延、綠色化算力基礎(chǔ)設(shè)施的需求愈發(fā)迫切。論壇開篇即迎來核心議程——“GW級(jí)開放智算中心OCP中國社區(qū)小組”成立儀式,阿里云、百度、中國移動(dòng)、快手、世紀(jì)互聯(lián)、電子標(biāo)準(zhǔn)院、浪潮信息、廣東省連接器協(xié)會(huì)、立訊技術(shù)、安瀾萬錦、億緯鋰能、中航光電等12家創(chuàng)始成員單位代表共同上臺(tái)啟動(dòng)工作組,標(biāo)志著我國在GW級(jí)智算中心標(biāo)準(zhǔn)化建設(shè)與全球生態(tài)協(xié)同領(lǐng)域邁出關(guān)鍵一步。

OCP中國社區(qū)負(fù)責(zé)人、論壇主持人葉毓睿介紹,該工作組是OCP全球“Open Systems for AI”戰(zhàn)略倡議在國內(nèi)的延伸與互補(bǔ),將重點(diǎn)聚焦三大方向:一是以場景驅(qū)動(dòng)為核心,結(jié)合國內(nèi)智能體爆發(fā)、超大規(guī)模應(yīng)用落地等領(lǐng)先優(yōu)勢,突破智算基礎(chǔ)設(shè)施技術(shù)瓶頸;二是推動(dòng)跨域協(xié)同,既覆蓋不同領(lǐng)域的算力需求,也支持跨數(shù)據(jù)中心的AI資源調(diào)度;三是構(gòu)建從技術(shù)標(biāo)準(zhǔn)到測試認(rèn)證的完整產(chǎn)業(yè)閉環(huán)。

“中國在實(shí)體產(chǎn)業(yè)的場景豐富度、清潔電力(光伏、風(fēng)電、水電占比超50%)、高壓直流輸電網(wǎng)絡(luò)等方面具備獨(dú)特優(yōu)勢?!比~毓睿強(qiáng)調(diào),工作組將先期完成框架白皮書的編制,計(jì)劃推動(dòng)高速互連等AI組件,以及超節(jié)點(diǎn)方案等納入OCP國際標(biāo)準(zhǔn),讓中國智算方案成為全球開放計(jì)算生態(tài)的重要組成部分。

作為對(duì)標(biāo)OCP國際生態(tài)的國內(nèi)社團(tuán)組織,中電標(biāo)協(xié)OCTC長期聚焦數(shù)據(jù)中心基礎(chǔ)設(shè)施標(biāo)準(zhǔn)化研制與推廣應(yīng)用,過往已聯(lián)合產(chǎn)業(yè)鏈企業(yè)取得顯著成果,例如將液冷整機(jī)柜標(biāo)準(zhǔn)從團(tuán)體標(biāo)準(zhǔn)推進(jìn)至國家標(biāo)準(zhǔn)報(bào)批階段,并同步配套研發(fā)液冷部件、零部件相關(guān)國標(biāo),為國內(nèi)智算基礎(chǔ)設(shè)施技術(shù)規(guī)范化奠定基礎(chǔ)。

針對(duì)GW級(jí)開放智算中心發(fā)展趨勢,OCTC秘書長陳海強(qiáng)調(diào)OCTC將積極配合OCP中國社區(qū),深度參與GW級(jí)開放智算中心OCP中國社區(qū)小組的前瞻技術(shù)攻關(guān)與研究,核心目標(biāo)是推動(dòng)國內(nèi)成熟的智算解決方案與技術(shù) “走出去”,融入全球開放計(jì)算生態(tài)。在OCP框架下,聯(lián)合產(chǎn)業(yè)鏈伙伴探索由中國牽頭的技術(shù)路線,提升國內(nèi)產(chǎn)業(yè)在全球智算基礎(chǔ)設(shè)施領(lǐng)域的話語權(quán),實(shí)現(xiàn)從“參與國際標(biāo)準(zhǔn)”到“主導(dǎo)中國方案輸出”的跨越,讓“中國OCTC成員”身份成為國際合作中的重要技術(shù)標(biāo)識(shí)。

技術(shù)深探:從集群到組件,全產(chǎn)業(yè)鏈破解GW級(jí)智算痛點(diǎn)

論壇期間,來自產(chǎn)業(yè)鏈上下游的8位技術(shù)專家先后登臺(tái),分享GW級(jí)智算中心建設(shè)中的實(shí)踐經(jīng)驗(yàn)與前沿探索,覆蓋算力集群架構(gòu)、高密液冷、新型能源、高速互連、備用電源等核心環(huán)節(jié),展現(xiàn)我國智算基礎(chǔ)設(shè)施技術(shù)的全維度突破。

算力集群:突破“剪刀差”與異構(gòu)生態(tài)難題

中國移動(dòng)研究院網(wǎng)絡(luò)與IT技術(shù)研究所副所長張曉光率先帶來主題為“面向大規(guī)模集群的新型智算創(chuàng)新實(shí)踐”的報(bào)告。他指出,當(dāng)前智算集群面臨兩大核心挑戰(zhàn):一是集群有效算力無法隨規(guī)模線性提升,二是異構(gòu)算力“資源墻”和彈性使用問題。對(duì)此,中國移動(dòng)提出OISA卡間互聯(lián)協(xié)議,將互聯(lián)規(guī)模從8卡提升至128卡,點(diǎn)對(duì)點(diǎn)帶寬從50-60G增至800G,時(shí)延從幾十微秒降至幾百納秒;同時(shí)推出“芯合”算力原生平臺(tái),通過異構(gòu)算力中間件實(shí)現(xiàn)“一次開發(fā)、多平臺(tái)遷移”,已支持“2類異構(gòu)CPU+9家廠商XPU”,應(yīng)用熱遷移時(shí)間小于20秒,CUDA應(yīng)用源碼轉(zhuǎn)譯效率超95%,百億參數(shù)模型跨五家廠商混合訓(xùn)練加速比超95%。

張曉光還透露,中國移動(dòng)正推動(dòng)智算中心“三個(gè)統(tǒng)一”標(biāo)準(zhǔn)——基礎(chǔ)設(shè)施(機(jī)柜、供電、制冷)統(tǒng)一、超節(jié)點(diǎn)基線能力統(tǒng)一、系統(tǒng)邏輯架構(gòu)統(tǒng)一,為GW級(jí)集群建設(shè)奠定基礎(chǔ)。

開放計(jì)算:加速GW級(jí)AIDC基礎(chǔ)設(shè)施創(chuàng)新

浪潮信息開放計(jì)算產(chǎn)品線總經(jīng)理Bean Zhang以“開放計(jì)算加速GW級(jí)AIDC基礎(chǔ)設(shè)施創(chuàng)新發(fā)展”為主題,深入剖析開源開放趨勢下智算中心的技術(shù)演進(jìn)路徑。他指出,當(dāng)前AI算力需求呈指數(shù)級(jí)增長。據(jù)麥肯錫報(bào)告預(yù)測,2025-2030年全球AI算力基礎(chǔ)設(shè)施投資將達(dá)5.2萬億美元,新建設(shè)施帶來的電力增量將達(dá)125GW,約相當(dāng)于雅江下游水電站滿負(fù)荷供電的兩倍。在此背景下,開放計(jì)算成為降低算力成本、加速技術(shù)落地的關(guān)鍵。

針對(duì)AI芯片功耗激增(當(dāng)前普遍突破1千瓦,2028年預(yù)計(jì)突破3千瓦)與超大規(guī)模集群需求,Bean Zhang分享了浪潮信息的兩大核心突破:一是推出MW級(jí)泵驅(qū)兩相液冷整機(jī)柜方案,通過微納米尺度仿生結(jié)構(gòu)、綠色低壓冷媒、瞬態(tài)多參數(shù)協(xié)同調(diào)控等技術(shù),實(shí)現(xiàn)單芯片3000瓦散熱能力,200顆AI芯片負(fù)載跳變時(shí)流量分配偏差低于10%、溫度偏差低于2度;二是研發(fā)超節(jié)點(diǎn)AI服務(wù)器“元腦SD200”,基于自研Open Fabric Switch實(shí)現(xiàn)64路國內(nèi)GPU高速互聯(lián),通過遠(yuǎn)端GPU虛擬映射技術(shù)將顯存擴(kuò)展至4TB,支持萬億參數(shù)大模型訓(xùn)練與多開源模型并行運(yùn)行,已率先實(shí)現(xiàn)商用。

“GW級(jí)AIDC建設(shè)需要全產(chǎn)業(yè)鏈協(xié)同?!盉ean Zhang表示,浪潮信息將聯(lián)合工作組成員,推動(dòng)超節(jié)點(diǎn)架構(gòu)、液冷標(biāo)準(zhǔn)、算力調(diào)度等領(lǐng)域的開放創(chuàng)新,助力中國方案納入國際標(biāo)準(zhǔn)體系。

高密制冷:液冷技術(shù)從“適配”到“引領(lǐng)”

百度智能云與快手分別從廠商與用戶視角,解讀液冷技術(shù)在高密智算場景的落地突破。百度智能云AI架構(gòu)師武正輝分享“昆侖芯片超節(jié)點(diǎn)-百度天池高密液冷整機(jī)柜”實(shí)踐,該方案采用21英寸機(jī)柜設(shè)計(jì),支持64張GPU卡高密度部署,通過模塊化供電、風(fēng)冷/液冷兼容CDU(冷水機(jī)組),實(shí)現(xiàn)單機(jī)柜交付效率提升數(shù)倍,且運(yùn)維時(shí)可實(shí)時(shí)監(jiān)控GPU負(fù)載與故障狀態(tài)?!搬槍?duì)模型‘裝不下、算不盡’的問題,超節(jié)點(diǎn)通過高帶寬互聯(lián)域?qū)崿F(xiàn)顯存共享,時(shí)延較行業(yè)平均水平降低50%。

快手IDC系統(tǒng)架構(gòu)師楊琪則聚焦液冷痛點(diǎn),提出“風(fēng)液同源”架構(gòu)與產(chǎn)品化解決方案:將冷源側(cè)水泵、真空脫氣等設(shè)備集成于一體,實(shí)現(xiàn)快速部署;室內(nèi)側(cè)采用側(cè)走管與分集水器設(shè)計(jì),解決傳統(tǒng)地板下走管的運(yùn)維難題。他特別強(qiáng)調(diào),液冷連接器的“責(zé)任界面認(rèn)定”與軟管材質(zhì)壽命(當(dāng)前EPDM軟管壽命8年,需適配數(shù)據(jù)中心10-15年生命周期)是行業(yè)亟待解決的共性問題,快手正聯(lián)合產(chǎn)業(yè)鏈推動(dòng)標(biāo)準(zhǔn)化。

高速互連:從銅纜到光互聯(lián),突破傳輸性能邊界

江蘇安瀾萬錦電子股份有限公司技術(shù)總監(jiān)張軍萍與立訊技術(shù)產(chǎn)品管理部高級(jí)經(jīng)理金龍,分別從高速線纜與機(jī)柜互聯(lián)方案維度,解讀GW級(jí)智算中心的“傳輸命脈”技術(shù)。

張軍萍以“高速互連傳輸線纜在GW級(jí)智算中心的應(yīng)用和發(fā)展趨勢”為主題,詳細(xì)介紹了不同速率線纜的技術(shù)演進(jìn)與產(chǎn)業(yè)現(xiàn)狀。她指出,當(dāng)前全球高速線纜需求呈爆發(fā)式增長,2023-2025年安瀾萬錦相關(guān)產(chǎn)品交付金額翻番,其中224G線纜占比從2023年的0飆升至2024年的60%,2025年預(yù)計(jì)達(dá)70%。從技術(shù)層面看,線纜結(jié)構(gòu)已從單層絕緣優(yōu)化為雙層絕緣、實(shí)心絕緣升級(jí)為發(fā)泡絕緣,導(dǎo)體從單芯擠出演進(jìn)為雙芯共擠,通過這些優(yōu)化可提升信號(hào)傳輸性能與抗干擾能力。

針對(duì)下一代448G線纜的研發(fā)挑戰(zhàn),張軍萍提出三大方向:一是新材料突破,如優(yōu)化鍍銀銅導(dǎo)體表面粗糙度、研發(fā)低Dk/Df值絕緣材料(目標(biāo)將FEP的Df值從萬分之四降至萬分之一的可能性)、探索石墨烯銅與新型屏蔽材料;二是工藝革新,如實(shí)現(xiàn)雙芯共擠發(fā)泡絕緣、研發(fā)噴涂式屏蔽工藝替代傳統(tǒng)包帶;三是測試能力升級(jí),推動(dòng)測試帶寬從67GHz提升至120GHz?!鞍矠懭f錦已推出448G線纜樣品,測試到110GHz時(shí)衰減性能平滑,期待與產(chǎn)業(yè)鏈協(xié)同驗(yàn)證,加速技術(shù)落地?!睆堒娖紡?qiáng)調(diào)。

立訊技術(shù)金龍則聚焦“超節(jié)點(diǎn)機(jī)柜互連解決方案”,指出當(dāng)前超節(jié)點(diǎn)發(fā)展呈現(xiàn)“更高速(224G普及、448G標(biāo)準(zhǔn)制定中)、更高密(單機(jī)柜GPU從16卡增至128卡)、更大規(guī)?!比筅厔荨a槍?duì)不同互連場景,立訊技術(shù)提供全維度方案:短距互連采用銅纜方案,通過近芯片銅連接取代PCB走線降低損耗;長距互連則結(jié)合LPO與光模塊,解決10米以上傳輸難題。同時(shí),立訊技術(shù)在機(jī)柜互連的高密Cable Cartridge設(shè)計(jì)上實(shí)現(xiàn)X/Y/Z方向3毫米浮動(dòng),搭配多級(jí)導(dǎo)向結(jié)構(gòu),確保萬根級(jí)線纜盲插的可靠性,已支持ETHX超節(jié)點(diǎn)等主流架構(gòu)。

金龍還展望了全光互連趨勢,提出“NPC與NPO兼容”的創(chuàng)新思路,通過同一連接器接口支持銅與光兩種連接方式,幫助客戶根據(jù)場景靈活配置,平衡成本與性能。

能源與備電:綠色化與可靠性雙輪驅(qū)動(dòng)

世紀(jì)互聯(lián)與億緯鋰能則從能源供給與備用保障維度,提供GW級(jí)智算中心的“能源方案”。世紀(jì)互聯(lián)集團(tuán)高級(jí)副總裁、能源創(chuàng)新事業(yè)部總經(jīng)理鮑益指出,GW級(jí)智算中心年用電量可達(dá)70億度,相當(dāng)于一個(gè)地縣年用電規(guī)模,傳統(tǒng)供電架構(gòu)面臨“六高”挑戰(zhàn)(高電力需求、高閑置、高損耗、高成本、高綠電、高密度適配難)。為此,世紀(jì)互聯(lián)創(chuàng)新提出AI原生“電粒世界(Powerlet Universe)”新物種,并聯(lián)合清華大學(xué)共同發(fā)起“SPEAR”全球協(xié)同創(chuàng)新倡議。該倡議是在國家新型電力系統(tǒng)的戰(zhàn)略指引下,以綠色能源和AI深度融合為核心,面向高質(zhì)量發(fā)展型配電網(wǎng)、主動(dòng)平衡電力新基建,推出綠電直連、直流微電網(wǎng)、虛擬電廠等創(chuàng)新模式,目標(biāo)是將數(shù)據(jù)中心從“單一用電載體”轉(zhuǎn)變?yōu)椤靶滦碗娏ο到y(tǒng)重要組成部分”。世紀(jì)互聯(lián)正在全力打造超大規(guī)模數(shù)據(jù)中心集群,從Hyperscale 1.0向Hyperscale 2.0升級(jí)。

億緯鋰能產(chǎn)品總監(jiān)貢昀博士則針對(duì)備用電源需求,發(fā)布BBU(備用電池單元)全面解決方案。該方案通過“材料-電極-結(jié)構(gòu)”三重優(yōu)化,將單電芯功率密度提升100%,同時(shí)通過四重防護(hù)(電芯、模組、電柜、系統(tǒng))實(shí)現(xiàn)“零火災(zāi)、零蔓延、零中斷”。“GW級(jí)智算中心斷電損失難以估量,BBU可實(shí)現(xiàn)毫秒級(jí)響應(yīng),搭配UPS與儲(chǔ)能電站,形成‘瞬時(shí)-短期-長期’三級(jí)備電體系,”貢昀表示,億緯鋰能還在研發(fā)LMX新電池材料體系,能量密度較磷酸鐵鋰提升10%-20%。

生態(tài)聚力:全鏈條對(duì)話打破壁壘,加速技術(shù)落地

除技術(shù)分享外,論壇設(shè)置圓桌討論環(huán)節(jié),12家創(chuàng)始成員單位代表與現(xiàn)場觀眾圍繞“GW級(jí)智算中心對(duì)城市電網(wǎng)的影響”“銅纜與光互聯(lián)的未來邊界”“液冷溫度標(biāo)準(zhǔn)協(xié)同”等議題展開熱烈互動(dòng)。

廣東省連接器協(xié)會(huì)秘書長梁宇彤指出,當(dāng)前國內(nèi)高速銅纜(224G)應(yīng)用較海外滯后2-3年,但隨著國產(chǎn)GPU芯片突破,2026年后有望進(jìn)入規(guī)?;帕侩A段;浪潮信息開放計(jì)算產(chǎn)品線總經(jīng)理Bean Zhang則提出,超節(jié)點(diǎn)服務(wù)器需突破“更大顯存空間、更大互聯(lián)域、更高計(jì)算性能”三大需求,元腦SD200超節(jié)點(diǎn)已實(shí)現(xiàn)64路GPU互聯(lián),支持4TB顯存擴(kuò)展。

結(jié)語

本次論壇不僅展現(xiàn)了我國在GW級(jí)智算中心技術(shù)領(lǐng)域的全產(chǎn)業(yè)鏈優(yōu)勢——從中國移動(dòng)的互聯(lián)協(xié)議、浪潮信息的超節(jié)點(diǎn)AI服務(wù)器、百度的液冷整機(jī)柜、立訊技術(shù)的高速互連,到世紀(jì)互聯(lián)的綠電方案、億緯鋰能的備電技術(shù),還通過工作組的成立搭建了“產(chǎn)學(xué)研用”協(xié)同平臺(tái),架設(shè)了開放智算技術(shù)“引進(jìn)來”、“走出去”的橋梁。

未來,隨著白皮書編制、測試認(rèn)證體系建設(shè)的推進(jìn),我國有望在智算基礎(chǔ)設(shè)施標(biāo)準(zhǔn)制定中掌握更多話語權(quán),為全球AI產(chǎn)業(yè)發(fā)展提供綠色、高效、可擴(kuò)展的“中國樣本”。

分享到

lixiangjing

算力豹主編

相關(guān)推薦