光躍LightSphere X發(fā)布儀式現(xiàn)場
創(chuàng)新技術(shù)直擊算力與網(wǎng)絡(luò)核心痛點
萬億參數(shù)大模型與多模態(tài)訓(xùn)練的崛起,正推動算力集群邁入“萬卡協(xié)同”時代。超節(jié)點架構(gòu)通過深度整合GPU資源,在超節(jié)點內(nèi)構(gòu)建起低延遲、高帶寬的統(tǒng)一算力實體,已成為支撐這一演進的關(guān)鍵技術(shù)路徑。
當(dāng)前業(yè)界一種常見方案是通過提升單機柜功耗來部署更多GPU,但受限于數(shù)據(jù)中心單機柜的功耗天花板,單機柜GPU密度提升存在瓶頸。對此,光躍LightSphere X采用光互連技術(shù),通過增加機柜數(shù)量構(gòu)建超節(jié)點,突破傳統(tǒng)互連方式下超節(jié)點的物理限制。相比銅纜,光纜的遠(yuǎn)距離傳輸優(yōu)勢可實現(xiàn)交付與機柜解耦,其核心價值在于:突破單機柜功耗束縛,支持萬卡級彈性擴展,兼容現(xiàn)有機房設(shè)施降低部署成本,并可按算力需求動態(tài)調(diào)整超節(jié)點規(guī)模,實現(xiàn)分階段建設(shè)。
同時,光躍LightSphere X全球首創(chuàng)的分布式光交換(dOCS,distributed Optical Circuit Switch)技術(shù)則進一步提升了超節(jié)點的靈活度和系統(tǒng)可擴展性,從而達到提升系統(tǒng)性價比的目的。不同于傳統(tǒng)的集中式交換,其通過在每個GPU上集成光交換功能,靈活切換GPU間互連拓?fù)浣Y(jié)構(gòu)。這不僅可實現(xiàn)故障場景下的拓?fù)鋵崟r重構(gòu),提高大模型訓(xùn)推性能,降低GPU冗余成本,還能按模型算力需求動態(tài)調(diào)整超節(jié)點規(guī)模,切換拓?fù)渚W(wǎng)絡(luò)。此外,分布式設(shè)計支持GPU高帶寬通訊域彈性擴展。光躍LightSphere X將實現(xiàn)2千卡規(guī)模部署。
得益于多計算芯粒(Chiplet)與CoWoS 2.5D封裝協(xié)同設(shè)計的GPU模組,光躍LightSphere X擁有強大算力。該模組基于自主原創(chuàng)架構(gòu)大算力(單卡1P級)通用GPU液冷模組,極大地增強了集群訓(xùn)推性能。通過自主研發(fā)智算云平臺軟件靈活配置超節(jié)點網(wǎng)絡(luò)拓?fù)?,支持密集通信和更大TP&EP,高效適應(yīng)各種大模型需求,大幅提高節(jié)點的可擴展性。OCS UBB采用獨創(chuàng)的革新載板設(shè)計,超低損板材多層架構(gòu),互聯(lián)拓?fù)湄S富靈活。該訓(xùn)推一體架構(gòu)可動態(tài)分配計算資源,既滿足千億參數(shù)大模型訓(xùn)練的高吞吐需求,又保障推理任務(wù)的低時延響應(yīng)。
光躍LightSphere X的上層軟件平臺同樣值得關(guān)注。其智算集群統(tǒng)一管理平臺通過深度融合調(diào)度引擎與訓(xùn)推框架,實現(xiàn)了對超節(jié)點全生命周期的智能管控。智算平臺能夠依據(jù)不同模型特征,進行超節(jié)點拓?fù)渲悄芘渲?,顯著提升訓(xùn)練性能;基于全局資源可觀測體系,實現(xiàn)故障節(jié)點秒級替換與分鐘級斷點續(xù)訓(xùn),保障模型長穩(wěn)運行。此外,通過軟硬協(xié)同的系統(tǒng)級工程優(yōu)化,進一步釋放了超節(jié)點在性能和效率等方面的綜合潛能。
開放、自主可控生態(tài)打造中國智算基礎(chǔ)設(shè)施新基座
除了單點技術(shù)創(chuàng)新,光躍LightSphere X還進一步聚焦構(gòu)建全棧自主的智算生態(tài),為中國算力基礎(chǔ)設(shè)施筑牢根基,為中國人工智能發(fā)展提供強勁動力。
硬件層開放兼容:光交換技術(shù)不依賴于特定的數(shù)據(jù)傳輸協(xié)議,可無縫兼容不同廠商使用的互連協(xié)議,消除生態(tài)鎖閉風(fēng)險;
突破核心器件與供應(yīng)鏈瓶頸:分布式光交換芯片基于硅光技術(shù),其設(shè)計與制造不依賴于先進半導(dǎo)體工藝節(jié)點;
全棧軟件自主:自研統(tǒng)一管理平臺實現(xiàn)從調(diào)度、容災(zāi)到優(yōu)化的全鏈路管控。
這套“開放協(xié)議+自主技術(shù)+自研軟件”的協(xié)同體系,真正實現(xiàn)了從技術(shù)到生態(tài)的自主可控閉環(huán)。
上海儀電表示,光躍LightSphere X依托上海儀電算力底座,集合國內(nèi)智算領(lǐng)域頭部企業(yè),共建了“光芯片—GPU—服務(wù)器—算力集群—智算云平臺”閉環(huán),打造了開放共享的光電融合算力生態(tài)體系。未來,光躍LightSphere X將作為新一代智算集群核心架構(gòu),支撐全棧自主可控的國產(chǎn)算力池建設(shè),助力中國AI算力基礎(chǔ)設(shè)施實現(xiàn)跨代發(fā)展。