在當(dāng)?shù)貢r(shí)間6月11日召開的AMD Advancing AI 2025峰會(huì)上,Supermicro組織了以“筑基人工智能未來(BUILD FOR WHAT’S NEXT IN AI)“為題的論壇,與AMD專家闡述了數(shù)據(jù)中心和機(jī)架規(guī)模的未來部署、端到端解決方案、液冷等內(nèi)容。
戰(zhàn)略聚焦:以規(guī)模與效率驅(qū)動(dòng)AI基礎(chǔ)設(shè)施升級(jí)
作為增長最快的AI OEM供應(yīng)商,Supermicro明確自身并非單純的合同制造商,而是通過精準(zhǔn)捕捉市場(chǎng)需求實(shí)現(xiàn)快速增長——從2023財(cái)年的71億美元營收躍升至2024財(cái)年的149億美元,預(yù)計(jì)2025財(cái)年?duì)I收有望實(shí)現(xiàn)250億美元、2026 財(cái)年?duì)I收將可能達(dá)到 400 億美元。
這一樂觀預(yù)期的核心驅(qū)動(dòng)力在于對(duì)部署規(guī)模與效率的深耕以及技術(shù)的突破:Supermicro在制造基地配備了18MW電力容量,可實(shí)現(xiàn)系統(tǒng)級(jí)與集群級(jí)測(cè)試;當(dāng)前每月產(chǎn)能達(dá)5000個(gè)機(jī)架單元(RUs),其中液冷產(chǎn)品占2000個(gè)機(jī)架單元,為大規(guī)模AI集群驗(yàn)證與交付奠定基礎(chǔ)。
Supermicro專家認(rèn)為,AI基礎(chǔ)設(shè)施與傳統(tǒng)計(jì)算存在本質(zhì)差異,需從系統(tǒng)、機(jī)架到數(shù)據(jù)中心全層級(jí)優(yōu)化。因此,Supermicro針對(duì)性布局液冷技術(shù)、冷卻設(shè)備(如冷卻器、水塔)及配套硬件(冷板、冷卻分配單元CDU等),同時(shí)關(guān)注電源、重量、空間等數(shù)據(jù)中心級(jí)要素,避免部署中因準(zhǔn)備不足導(dǎo)致的效率損耗,確??蛻敉度氲馁Y金快速轉(zhuǎn)化為實(shí)際價(jià)值。
技術(shù)突破:液冷技術(shù)成大規(guī)模部署核心支撐
液冷技術(shù)作為本次演講的重點(diǎn),被視為解決大規(guī)模AI集群能耗與效率問題的關(guān)鍵。相比傳統(tǒng)風(fēng)冷,液冷在效率提升上優(yōu)勢(shì)顯著:通過對(duì)CPU、GPU、內(nèi)存甚至電源采用液冷方案,可實(shí)現(xiàn)40%的效率提升,目標(biāo)是將液冷效率優(yōu)化至98%。
液冷技術(shù)的價(jià)值還體現(xiàn)在環(huán)保與運(yùn)維優(yōu)化上:一方面,液冷能減少風(fēng)扇依賴,降低噪音污染;另一方面,通過優(yōu)化冷水機(jī)組設(shè)計(jì),可大幅減少數(shù)據(jù)中心用水量,兼顧高效與環(huán)保。此外,液冷方案通過緊湊化設(shè)計(jì)縮減布線與交換設(shè)備的空間占用,進(jìn)一步降低基礎(chǔ)設(shè)施投資,為高密度AI集群部署提供可能。
生態(tài)協(xié)同:與AMD深度合作加速產(chǎn)品落地
Supermicro與AMD的合作是推動(dòng)AI基礎(chǔ)設(shè)施落地的核心動(dòng)力。雙方合作從2017年6月發(fā)布的Radeon instinct MI25系列延續(xù)至此次最新發(fā)布的MI 350/355系列,形成“聯(lián)合開發(fā)-早期測(cè)試-快速上市”的高效鏈路。Supermicro作為首批將AMD技術(shù)推向市場(chǎng)的廠商,已實(shí)現(xiàn)MI 350x系統(tǒng)交付,且MI355x風(fēng)冷與液冷服務(wù)器于當(dāng)月正式出貨,所有性能數(shù)據(jù)均經(jīng)Supermicro硬件驗(yàn)證,并獲第三方機(jī)構(gòu)(如Signal 65)背書。
AMD則以開放生態(tài)強(qiáng)化合作根基:硬件上,其EPYC系列CPU憑借高頻調(diào)諧技術(shù)為AI負(fù)載提速17%,Instinct系列GPU(如MI 355)持續(xù)領(lǐng)跑性能;軟件上,ROCm平臺(tái)以免許可、全開放特性支持主流框架與編譯器,加速開發(fā)者創(chuàng)新;網(wǎng)絡(luò)層面,通過參與Ultra Ethernet Consortium等組織,推動(dòng)InfiniBand、RDMA等技術(shù)標(biāo)準(zhǔn)化,實(shí)現(xiàn)集群級(jí)網(wǎng)絡(luò)性能與效率雙提升。
客戶實(shí)踐:從技術(shù)驗(yàn)證到規(guī)?;涞氐膬r(jià)值閉環(huán)
Supermicro通過展示實(shí)際客戶案例印證了技術(shù)方案的可行性。
全球大型基礎(chǔ)設(shè)施服務(wù)商Vultr依托Supermicro與AMD的技術(shù),實(shí)現(xiàn)了每月300萬個(gè)實(shí)例部署,覆蓋云服務(wù)、GPU即服務(wù)等場(chǎng)景,憑借高性能與透明定價(jià)為客戶節(jié)省30%-60%成本,并通過FedRAMP等合規(guī)認(rèn)證拓展企業(yè)級(jí)市場(chǎng)。
專注AI GPU集群的Tensor Wave則部署了全球首個(gè)大規(guī)模全液冷MI325x集群:該集群位于美國亞利桑那州,單機(jī)架功率密度達(dá)100-120千瓦,通過熱交換器技術(shù)實(shí)現(xiàn)低噪音、低溫環(huán)境運(yùn)行,專為大規(guī)模AI訓(xùn)練優(yōu)化,已支撐客戶在RNA視頻生成等場(chǎng)景實(shí)現(xiàn)高效推理與訓(xùn)練。此外,Tensor Wave計(jì)劃于數(shù)月內(nèi)推出更大規(guī)模的MI350集群,進(jìn)一步驗(yàn)證AMD生態(tài)的規(guī)模化能力。
開放未來:以生態(tài)協(xié)同加速AI創(chuàng)新落地
Supermicro強(qiáng)調(diào),與AMD及客戶的協(xié)同是推動(dòng)AI基礎(chǔ)設(shè)施進(jìn)步的核心。Supermicro通過與AMD聯(lián)合優(yōu)化硬件、驗(yàn)證性能,確保技術(shù)快速轉(zhuǎn)化為產(chǎn)品;AMD以開放戰(zhàn)略(硬件、軟件、網(wǎng)絡(luò)標(biāo)準(zhǔn))降低創(chuàng)新門檻;客戶則通過大規(guī)模部署反饋需求,形成“技術(shù)-產(chǎn)品-應(yīng)用”的正向循環(huán)。
從液冷技術(shù)突破到全棧生態(tài)構(gòu)建,Supermicro與AMD的合作不僅為AI基礎(chǔ)設(shè)施提供了高效解決方案,更印證了“技術(shù)創(chuàng)新+生態(tài)協(xié)同”是應(yīng)對(duì)AI規(guī)?;魬?zhàn)的必然路徑,為行業(yè)持續(xù)輸送高效、環(huán)保且可落地的AI基礎(chǔ)設(shè)施藍(lán)圖。