大模型火爆的同時(shí),對(duì)于計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)的需求也在逐漸增加。從三維度看大模型的三大特征:
(1)數(shù)據(jù)量大。海量?jī)?yōu)質(zhì)數(shù)據(jù)才是大模型能夠訓(xùn)練的基石,數(shù)據(jù)量巨大的情況下對(duì)于存儲(chǔ)的需求也是急劇增加的狀態(tài)。
(2)參數(shù)量大。大家一直在說大模型,什么是大模型?大模型其實(shí)就是參數(shù)量大,參數(shù)量大帶來什么樣的好處?模型泛化和表達(dá)能力越強(qiáng),對(duì)于GPU算力的要求也會(huì)更大。
(3)通信量大。參數(shù)量越來越大的時(shí)候,對(duì)于模型訓(xùn)練、模型推理其實(shí)在單臺(tái)機(jī)器里沒有辦法完成,需要多臺(tái)機(jī)器完成,多機(jī)多卡的通信也成為了大模型時(shí)代的主流,對(duì)于網(wǎng)絡(luò)需求也會(huì)更加大一些。
面對(duì)這些挑戰(zhàn),單純堆砌硬件已非正解。騰訊云以“全局最優(yōu)”思維重構(gòu)基礎(chǔ)設(shè)施:從計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)的單點(diǎn)性能突破,到軟硬協(xié)同的全棧優(yōu)化,再到跨集群的資源調(diào)度與故障自愈,讓算力效率與穩(wěn)定性實(shí)現(xiàn)指數(shù)級(jí)提升。
正是由于計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)帶來的需求,騰訊云一直在高性能AI基礎(chǔ)設(shè)施方面深耕,在基礎(chǔ)平臺(tái)研發(fā)和生態(tài)建設(shè)上也投入了很多精力。AI底座發(fā)展經(jīng)過了三個(gè)階段:
1.探索期。在2019年左右,對(duì)于像英偉達(dá)非常老舊的V100機(jī)器已經(jīng)搭配了RDMA網(wǎng)絡(luò),同時(shí)能助力科學(xué)計(jì)算、仿真等場(chǎng)景。在2021年A100 GPU搭配了RDMA網(wǎng)絡(luò),獲得了信通院的高度認(rèn)可,在探索期的時(shí)候網(wǎng)絡(luò)帶寬也只有100G的RDMA網(wǎng)絡(luò)。
2.技術(shù)迭代期。發(fā)展跟自動(dòng)駕駛、大模型發(fā)展是強(qiáng)相關(guān)的狀態(tài),這個(gè)時(shí)間點(diǎn)技術(shù)不斷在進(jìn)行迭代演進(jìn),像在硬件上騰訊引入了自研的星星海AI訓(xùn)練服務(wù)器,以及基于白盒交換機(jī)所做的星脈網(wǎng)絡(luò)交換機(jī)。在網(wǎng)絡(luò)上,RDMA網(wǎng)絡(luò)從800G不斷迭代到最先進(jìn)的3.2T。騰訊云的集群也有搭配華為910高性能智算集群。
3.規(guī)?;瘧?yīng)用期。在這個(gè)階段提供了基于計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)全方面的智能高性能智算底座,助力大模型發(fā)展。
王竹兵表示,騰訊云智算底座有三大特征:云原生、同源同構(gòu)、場(chǎng)景驅(qū)動(dòng)。
對(duì)于整體的規(guī)劃,騰訊云的愿景和使命包括:
一是,希望依托于騰訊自研的軟硬件優(yōu)勢(shì),性能在業(yè)界做到領(lǐng)先。
二是,多芯兼容,騰訊云所使用的交換機(jī)、GPU卡,有用英偉達(dá)和華為910的GPU卡,也有騰訊自研的“紫霄”GPU,做到多芯兼容使用。
三是,在使用上更加靈活,因?yàn)轵v訊云是做公有云,很多企業(yè)數(shù)據(jù)聚焦在公有云上,但對(duì)于這塊有很多其他客戶數(shù)據(jù)沒辦法上到公有云上使用,就可以提供分布式云、專有云等場(chǎng)景,能對(duì)AI底座做靈活的部署。
騰訊云一直在持續(xù)打造AI Infra的品牌影響力,引領(lǐng)算力發(fā)展。Gartner評(píng)估騰訊云在未來潛力上位列亞太廠商第一,同時(shí)在很多技術(shù)委員會(huì)上也獲得了獎(jiǎng)項(xiàng)。
前面介紹了對(duì)于大模型發(fā)展,而對(duì)于計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)的需求,具體而言:
第一,計(jì)算層面。對(duì)于騰訊云來說推出了高性能計(jì)算集群HCC,訓(xùn)練穩(wěn)定性在業(yè)界比較領(lǐng)先,有三個(gè)優(yōu)勢(shì):
1.啟動(dòng)時(shí)間短,很多客戶更多聚焦在自己的模型層面,不需要做基礎(chǔ)設(shè)施建設(shè),這樣用到騰訊高性能計(jì)算集群的時(shí)候能夠保證在設(shè)備到位的時(shí)候,訓(xùn)練時(shí)間從30天縮短到1天。
2.故障率低,有自研的星星海服務(wù)器,不僅軟硬件和硬件上都有做到相應(yīng)的優(yōu)化,千卡單日故障率能跌到0.16。
3.故障恢復(fù)快,為什么把故障作為一個(gè)點(diǎn)來講?因?yàn)樵诖竽P陀?xùn)練過程中,每一次的訓(xùn)練過程花費(fèi)的精力、金錢投入是非常巨大的,希望以最大的速度發(fā)現(xiàn)故障,并且能夠快速剔除,做到集群一致性,快速發(fā)現(xiàn)故障的機(jī)器。同時(shí)通過熱備機(jī)直接把對(duì)應(yīng)的故障機(jī)器替換掉,整體故障恢復(fù)的時(shí)間就會(huì)很短。
第二,網(wǎng)絡(luò)。
騰訊自研的星脈網(wǎng)絡(luò)依托自研的硬件白盒交換機(jī),網(wǎng)絡(luò)帶寬做到了3.2T RDMA網(wǎng)絡(luò),在業(yè)界比較領(lǐng)先。
結(jié)合通信,像英偉達(dá)一直說結(jié)合通信最好的是用IB的網(wǎng)絡(luò),騰訊云是用的Rocky的網(wǎng)絡(luò),在性能上能和IB網(wǎng)絡(luò)持平,但成本能大大降低。
全局監(jiān)控,星脈網(wǎng)絡(luò)可以理解為類似每個(gè)機(jī)器、交換機(jī)上都有對(duì)應(yīng)的Agent,能從全局的角度感知網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的變化,監(jiān)控集群,不僅在運(yùn)營(yíng)上更加高效,也在運(yùn)維上更加高效。
第三,存儲(chǔ)。
騰訊云有自研高性能的計(jì)算存儲(chǔ)引擎Histor,對(duì)外能提供高性能的存儲(chǔ)解決方案,尤其在大模型訓(xùn)練的時(shí)候,訓(xùn)練過程中Checkpoint的寫入時(shí)間大大降低,數(shù)據(jù)的讀取速率大大提升,打造更適合大模型的存儲(chǔ)方式。
第四,數(shù)據(jù)平臺(tái)。
騰訊云所有數(shù)據(jù)都存儲(chǔ)在對(duì)象存儲(chǔ)的數(shù)據(jù)湖里,但有兩個(gè)加速方案:一是GooseFS是基于本地盤加速緩存的方案,能加速數(shù)據(jù)的讀取,二是MetaInsight做智能檢索,幫助騰訊云提升整體數(shù)據(jù)的管理效率,釋放數(shù)據(jù)價(jià)值。
前面介紹的都是在基礎(chǔ)設(shè)施方面的投入,在基礎(chǔ)之外軟件層面也做了很多工作。比如說TACO加速套件,是對(duì)于訓(xùn)練和推理做加速的引擎,客戶在使用的時(shí)候只需要做plug in的方式插入,簡(jiǎn)單的配置就能使用了,能提升訓(xùn)練、推理的過程。
qGPU是稍微傳統(tǒng)一些的,在GPU層面能做到更細(xì)粒度的切分,不管是算力或顯存上的切分,能提升GPU的利用率。Tione是部署的平臺(tái),幫助客戶很簡(jiǎn)單快捷地部署模型,幫助他們做對(duì)應(yīng)的調(diào)度。
前面所有的介紹,不管是基于基礎(chǔ)設(shè)施還是軟件層面的,不僅僅在騰訊云公有云上做,在分布式云、專有云、私有云場(chǎng)景下都可以部署,傳統(tǒng)行業(yè)數(shù)據(jù)沒有辦法搬遷上云,通過分布式云的方式把公有云的能力延伸到客戶機(jī)房里,保證客戶能夠使用公有云能力的前提下,同時(shí)數(shù)據(jù)能夠依然放在他們自己的機(jī)房里,讓他們?cè)谑褂肁I更加簡(jiǎn)便。
此外,結(jié)合DeepSeek,騰訊云推出了推理服務(wù),即高性能應(yīng)用服務(wù),以非常低的門檻幫助客戶做到一站式模型快速部署,能幫助很多開發(fā)者、中小企業(yè)快速部署模型。
在普惠AI的趨勢(shì)下,騰訊云憑借技術(shù)優(yōu)勢(shì)以一系列智算解決方案賦能千行百業(yè),期待看到騰訊云在AI基礎(chǔ)設(shè)施領(lǐng)域更多的創(chuàng)新成果。