王曉慧分享道,大模型訓(xùn)練需要消耗大量的計算資源和時間,如何高效地搭建和管理訓(xùn)練集群成為加速大模型落地的核心挑戰(zhàn)。在NVIDIA的支持下,優(yōu)刻得率先將DPU應(yīng)用于裸金屬物理云,實現(xiàn)了軟件定義的計算、存儲和網(wǎng)絡(luò),助力集群計算效率提升。她強調(diào),DPU裸金屬訓(xùn)練集群為高帶寬、低延遲、數(shù)據(jù)密集的大模型訓(xùn)練場景提供強大的計算引擎,大幅提升了網(wǎng)絡(luò)處理能力和數(shù)據(jù)傳輸速度。

基于DPU裸金屬所構(gòu)建的訓(xùn)練集群在高性能計算、數(shù)據(jù)和模型并行處理等方面優(yōu)勢突出,可輕松應(yīng)對大模型時代下的嚴苛性能要求和工作負載挑戰(zhàn)。DPU裸金屬集群可以提供訓(xùn)練所需的強大算力,具備千卡規(guī)模的模型訓(xùn)練能力;同時以低延遲、高吞吐的特性,充分滿足了大規(guī)模數(shù)據(jù)處理和高并發(fā)場景的需求,加速模型訓(xùn)練過程。此外,DPU的引入賦予了訓(xùn)練集群更高的靈活性和可擴展性,使得用戶能夠根據(jù)實際業(yè)務(wù)需求靈活選擇適配的硬件和軟件堆棧,確保持續(xù)優(yōu)化模型的訓(xùn)練性能和效率。

會上,王曉慧還進一步分享了優(yōu)刻得孔明智算平臺在大模型訓(xùn)練場景中的優(yōu)勢。孔明智算平臺是優(yōu)刻得自主研發(fā)的一款智能算力管理平臺,能夠幫助大模型公司提高訓(xùn)練效率、優(yōu)化模型性能、降低開發(fā)成本。用戶可以輕松構(gòu)建并管理訓(xùn)練集群,并對計算資源的智能調(diào)度和優(yōu)化配置,無需將更多精力關(guān)注在底層資源層面,從而實現(xiàn)更加高效的大模型訓(xùn)練。

為應(yīng)對大模型訓(xùn)練過程中通信異常挑戰(zhàn)、及時發(fā)現(xiàn)故障所在,優(yōu)刻得結(jié)合英偉達的GPU Direct Storage技術(shù),自主研發(fā)了UPFS并行文件存儲系統(tǒng)。UPFS顯著提升了存儲系統(tǒng)的吞吐能力,使得CheckPoint的速度相較于傳統(tǒng)存儲提升了近10倍,確保提高訓(xùn)練效率和快速恢復(fù)訓(xùn)練。優(yōu)刻得智算平臺支持對同構(gòu)、異構(gòu)卡的統(tǒng)一調(diào)度與管理,以分區(qū)的方式提供不同的資源池;同時,支持TCP/IP協(xié)議、IB和RoCE等多樣化的網(wǎng)絡(luò)接入方案,擁有斷點續(xù)訓(xùn)、數(shù)據(jù)備份、自定義故障恢復(fù)等機制,避免訓(xùn)練過程中的意外中斷,為大模型訓(xùn)練的安全性和連續(xù)性提供保障。

目前,優(yōu)刻得DPU裸金屬訓(xùn)練集群和智算平臺已在大模型分布式訓(xùn)練、自動駕駛、生物醫(yī)藥、工業(yè)制造等領(lǐng)域落地應(yīng)用,能夠勝任在AI領(lǐng)域內(nèi)的各類業(yè)務(wù)需求。在生物醫(yī)藥領(lǐng)域,基于高性能計算能力,研究人員能夠更快速地進行復(fù)雜的分子模擬和仿真訓(xùn)練,加速藥物研發(fā)和優(yōu)化過程;在工業(yè)制造領(lǐng)域,幫助企業(yè)提高工業(yè)仿真、工業(yè)復(fù)核等任務(wù)效率,優(yōu)化生產(chǎn)流程,以實現(xiàn)智能制造。

優(yōu)刻得智能算力已廣泛服務(wù)于大模型和人工智能企業(yè),為智譜AI構(gòu)建超千卡規(guī)模推理集群,實現(xiàn)成本效益和服務(wù)質(zhì)量的平衡;為AI繪畫平臺圖蠅AI提升圖片生成效率和質(zhì)量,設(shè)計效率提升5倍以上;為出門問問數(shù)字人應(yīng)用研發(fā)提供海量算力,5分鐘內(nèi)即可實現(xiàn)數(shù)字員工形象定制和上崗。

當下,優(yōu)刻得已在GPU、DPU和存儲等多個領(lǐng)域建立了優(yōu)勢,不僅為用戶提供高性能底層算力資源,更憑借豐富的大模型工程化實踐,為眾多大模型企業(yè)提供有力支持。未來,優(yōu)刻得將更好地為全球用戶提供智能高效、穩(wěn)定可靠的AI智算基礎(chǔ)設(shè)施,助推更多大模型應(yīng)用的研發(fā)與落地。



分享到

xiesc

相關(guān)推薦