對(duì)此,新華三集團(tuán)高級(jí)副總裁、云與計(jì)算存儲(chǔ)產(chǎn)品線總裁徐潤安在專訪中表示,新華三構(gòu)建了完整的產(chǎn)品和解決方案體系——數(shù)據(jù)×AI,調(diào)度×AI,算力×AI,存儲(chǔ)×AI,綠色×AI,通過五大×AI切入點(diǎn)與N種產(chǎn)品方案相結(jié)合,幫助用戶實(shí)現(xiàn)AI與基礎(chǔ)架構(gòu)及業(yè)務(wù)的深度融合。

“我們的關(guān)注點(diǎn)主要是新華三如何高效管理和分配計(jì)算資源,存儲(chǔ)怎樣加速大模型訓(xùn)練,不同系列AI服務(wù)器的應(yīng)用場(chǎng)景選擇?!?/p>

調(diào)度×AI中的傲飛算力調(diào)度平臺(tái)

作為新華三的創(chuàng)新能力之一,傲飛算力調(diào)度平臺(tái)是提升算力資源利用率的關(guān)鍵工具,現(xiàn)在新發(fā)布的是3.0版本,從最初的1.0用于高效科學(xué)計(jì)算,2.0面向混合智算+科學(xué)計(jì)算,到了3.0正式對(duì)外支持智算中心平臺(tái)的建設(shè)。通過智能調(diào)度算法,實(shí)現(xiàn)高效的計(jì)算資源管理,尤其在多元異構(gòu)環(huán)境下。而且無論是本地?cái)?shù)據(jù)中心還是云端資源,傲飛平臺(tái)都能實(shí)現(xiàn)快速分配和靈活調(diào)度,確保資源的最佳利用率。

在集群模式上,傲飛平臺(tái)可以通過小集群的形式進(jìn)行擴(kuò)展,每個(gè)集群由1臺(tái)、3臺(tái)或5臺(tái)設(shè)備組成,靈活應(yīng)對(duì)資源擴(kuò)展需求,隨著企業(yè)資源規(guī)模的增加,集群不斷擴(kuò)展實(shí)現(xiàn),實(shí)現(xiàn)大規(guī)模分配和調(diào)度支持客戶應(yīng)用。

在實(shí)踐方面,新華三在去年發(fā)布了私域大模型百業(yè)靈犀,正式發(fā)布前,傲飛平臺(tái)已經(jīng)進(jìn)行了超萬個(gè)計(jì)算節(jié)點(diǎn)的測(cè)試,每臺(tái)R5300服務(wù)器上可以配置8個(gè)GPU卡(每個(gè)計(jì)算節(jié)點(diǎn)包含8個(gè)GPU卡),即傲飛平臺(tái)已經(jīng)具備支持和優(yōu)化萬卡規(guī)模的能力,能夠設(shè)計(jì)和驗(yàn)證與之匹配的方案。

徐潤安還指出,管理萬卡更主要的是業(yè)務(wù)拉通,具體流程包括接收客戶任務(wù)后,進(jìn)行初步的大數(shù)據(jù)分析;根據(jù)任務(wù)需求,進(jìn)行模型的訓(xùn)練或微調(diào);對(duì)模型進(jìn)行評(píng)估,最終部署完成客戶提交的任務(wù),新華三通過結(jié)合硬件資源管理和業(yè)務(wù)流程優(yōu)化,覆蓋整個(gè)任務(wù)的生命周期,確保每個(gè)環(huán)節(jié)的高效運(yùn)作。

未來,新華三將繼續(xù)優(yōu)化和整合傲飛的平臺(tái)功能,以應(yīng)對(duì)更復(fù)雜的計(jì)算需求和更廣泛的應(yīng)用場(chǎng)景。傲飛的能力還基于新華三的硬件基礎(chǔ),對(duì)各家GPU供應(yīng)商的產(chǎn)品性能和特點(diǎn)都有認(rèn)知,還有對(duì)算子的能力,GPU哪些算力能力比較強(qiáng),能否進(jìn)一步往下層調(diào)度,這些都有助于傲飛平臺(tái)甚至更多新華三產(chǎn)品的迭代。以后計(jì)算和存儲(chǔ)資源都將越來越多集中到云上,實(shí)現(xiàn)資源的透明化管理,更要持續(xù)關(guān)注調(diào)度平臺(tái)的能力。

算力×AI中,訓(xùn)練和推理不一定做選擇題

算力方面,新華三推出面向智算中心的多元異構(gòu)算力平臺(tái)H3C UniServer R5300/R5500 G7系列服務(wù)器和算網(wǎng)融合的H3C UniServer E3300 G6邊緣AI服務(wù)器。不同系列AI服務(wù)器,面向用戶的多樣化行業(yè)場(chǎng)景該怎么選擇呢,會(huì)按照訓(xùn)練和推理區(qū)分嗎?

新華三集團(tuán)云與計(jì)算存儲(chǔ)產(chǎn)品線副總裁劉宏程表示,基于GPU形態(tài)和互連方式會(huì)有不同的兩種產(chǎn)品,適用不同的應(yīng)用場(chǎng)景。但隨著國內(nèi)GPU廠商的快速發(fā)展,訓(xùn)練和推理的界限逐漸模糊,高端的OAM模塊雖然主要用于訓(xùn)練,但其功能亦逐漸延伸至訓(xùn)練后的少數(shù)場(chǎng)景,并預(yù)示著未來向推理形態(tài)的轉(zhuǎn)型,我們定位主要用于未來推理場(chǎng)景的?;诂F(xiàn)在國內(nèi)GPU廠家而言,有一部分也會(huì)用于訓(xùn)練方式實(shí)現(xiàn)。過去在G5和G6系列服務(wù)器中,R5500系列主要用于訓(xùn)練,R5300系列主要用于推理,現(xiàn)在這種區(qū)分已經(jīng)不再明顯。

隨著GPU異構(gòu)生態(tài)的蓬勃發(fā)展和廠家數(shù)量的增長,傳統(tǒng)上可能傾向于選擇OAM模塊或R5500服務(wù)器來應(yīng)對(duì)需求。然而,近期一些大型智算中心項(xiàng)目開始創(chuàng)新性地采用R5300服務(wù)器進(jìn)行訓(xùn)練,這一變革不僅滿足了推理需求,還顯著提升了訓(xùn)練后的推理效率。因此,R5300平臺(tái)正逐漸承擔(dān)起更多訓(xùn)練任務(wù),并有望在未來支持更大規(guī)模的推理工作,展現(xiàn)了其廣泛的適用性和強(qiáng)大的潛力。

我們知道,訓(xùn)練階段是建立模型的基礎(chǔ),從去年到今年,隨著大模型市場(chǎng)的逐漸成熟,推理的需求增長也頗為迅猛,達(dá)到訓(xùn)練需求的十倍甚至百倍。R5300服務(wù)器平臺(tái)能夠同時(shí)滿足訓(xùn)練和推理的需求,體現(xiàn)同一平臺(tái)的多功能性。

新發(fā)布的G7系列服務(wù)器是相較于G6平臺(tái)的全面升級(jí)。目前,新華三G7系列多元異構(gòu)服務(wù)器重點(diǎn)面向運(yùn)營商、政府和金融行業(yè),未來,將擴(kuò)大覆蓋所有行業(yè),包括互聯(lián)網(wǎng)和企業(yè)應(yīng)用,以滿足更廣泛的市場(chǎng)需求。

存儲(chǔ)×AI中,推出Polaris新一代AI存儲(chǔ)系列

在存儲(chǔ)方面,新華三推出的新一代AI存儲(chǔ)——Polaris系列,將Storage For AI和AI In Storage兩大思路融合為一。整體來說,Storage For AI是通過全閃介質(zhì)、數(shù)據(jù)池化和AI智能管理特性滿足AI業(yè)務(wù)負(fù)載對(duì)存儲(chǔ)設(shè)備的性能和功能需求,AI In Storage則是融入AI技術(shù)在智能運(yùn)維、智能加速、智能助手等工具,大幅降低存儲(chǔ)設(shè)備在運(yùn)維、管理、排障、規(guī)劃、配置、優(yōu)化等方面的工作量和成本。

新華三集團(tuán)存儲(chǔ)產(chǎn)品線首席產(chǎn)品經(jīng)理關(guān)天舒表示:數(shù)據(jù)存儲(chǔ)是AI大模型數(shù)據(jù)收集、預(yù)處理、訓(xùn)練、推理的關(guān)鍵一環(huán),決定了能保存的數(shù)據(jù)容量、訓(xùn)練及推理的數(shù)據(jù)讀取效率、數(shù)據(jù)的可靠性等。新華三下一代AI存儲(chǔ)——Polaris系列通過軟硬件協(xié)同創(chuàng)新為大模型訓(xùn)練提供超強(qiáng)的存儲(chǔ)性能,實(shí)現(xiàn)checkpoint秒級(jí)寫入;滿足智算千萬小文件并發(fā)和TB級(jí)帶寬需求?;贏I技術(shù)的加持,智能預(yù)測(cè)存儲(chǔ)集群容量使用趨勢(shì)、提供擴(kuò)容和業(yè)務(wù)調(diào)整建議,通過智能分層算法實(shí)現(xiàn)冷熱數(shù)據(jù)分層存儲(chǔ),提高用戶命中率和熱數(shù)據(jù)讀取性能;同時(shí),基于大預(yù)言模型提供智能運(yùn)維助手,根據(jù)業(yè)務(wù)負(fù)載動(dòng)態(tài)調(diào)整CPU、硬盤功耗,極大地簡化了用戶運(yùn)維難度,實(shí)現(xiàn)便捷、高效的管理體驗(yàn)。。

最后

新華三通過深化和加速“AI for ALL”戰(zhàn)略,充分發(fā)揮其在算力和聯(lián)接領(lǐng)域的核心優(yōu)勢(shì),推動(dòng)AI技術(shù)在各行業(yè)的廣泛應(yīng)用。無論是通過傲飛算力調(diào)度平臺(tái)優(yōu)化資源利用,還是通過存算融合加速大模型訓(xùn)練,實(shí)現(xiàn)AI服務(wù)器的多功能性,新華三正在引領(lǐng)AI時(shí)代的技術(shù)革新和行業(yè)變革。

分享到

崔歡歡