萬卡集群主要應(yīng)用于需要大規(guī)模計算能力的場景,如人工智能模型的訓(xùn)練和推理、大數(shù)據(jù)分析、科學(xué)研究等。它們能夠顯著加速AI技術(shù)的研發(fā)和應(yīng)用,推動AI技術(shù)的創(chuàng)新和發(fā)展,并促進(jìn)AI技術(shù)的普及和推廣。

一、萬卡集群的相關(guān)企業(yè)布局

在當(dāng)今的人工智能時代,萬卡集群已成為各大科技企業(yè)競爭的重要領(lǐng)域,眾多企業(yè)紛紛投入到萬卡集群的建設(shè)與布局中。

國際科技巨頭

Google:推出了超級計算機A3 Virtual Machines,擁有26000塊Nvidia H100 GPU,同時基于自研芯片搭建TPUv5 p8960卡集群,在人工智能的基礎(chǔ)研究和應(yīng)用開發(fā)方面擁有強大的算力支持。

Meta:早在2022年就推出了擁有16000塊Nvidia A100的AI研究超級集群(AI Research Super Cluster),2024年初又公布了2個24576塊Nvidia H100集群,為其下一代生成式AI模型的訓(xùn)練提供了堅實的基礎(chǔ),有力地推動了Meta在人工智能領(lǐng)域的研究和應(yīng)用。

微軟:作為全球軟件巨頭,微軟也在積極布局萬卡集群,將其應(yīng)用于人工智能的研發(fā)和應(yīng)用中,為其旗下的人工智能產(chǎn)品和服務(wù)提供強大的算力支持。

亞馬遜:亞馬遜的AWS云服務(wù)在全球范圍內(nèi)擁有廣泛的用戶基礎(chǔ),為了滿足用戶對人工智能算力的需求,亞馬遜也在不斷加強其在萬卡集群方面的建設(shè)和投入。

特斯拉:馬斯克的xAI宣布了2024年最大的一筆60億美元B輪融資,計劃建造一個名為“超級算力工廠”的設(shè)施,為下一版本Grok提供強大的算力支持,這個計劃使用多達(dá)10萬個GPU來訓(xùn)練,預(yù)計2025年秋天之前投入運行。

國內(nèi)企業(yè)

通信運營商

中國移動:今年將商用哈爾濱、呼和浩特、貴陽三個自主可控萬卡集群,總規(guī)模近6萬張GPU卡,作為國家算力基礎(chǔ)設(shè)施建設(shè)的重要力量,中國移動積極推動萬卡集群的建設(shè),為我國人工智能產(chǎn)業(yè)的發(fā)展提供了強大的算力支持。

中國電信:上半年在上海規(guī)劃建設(shè)到達(dá)15000卡、總算力超4500P的國產(chǎn)萬卡算力池,是國內(nèi)首個超大規(guī)模國產(chǎn)算力液冷集群,也是業(yè)內(nèi)領(lǐng)先的全國產(chǎn)化云智一體公共智算中心。此外,中國電信京津冀萬卡液冷智算集群還入選了全國一體化算力網(wǎng)應(yīng)用優(yōu)秀案例。

中國聯(lián)通:上海臨港國際云數(shù)據(jù)中心在今年內(nèi)將建成中國聯(lián)通首個萬卡集群。

互聯(lián)網(wǎng)企業(yè)

字節(jié)跳動:搭建了一個12288卡Ampere架構(gòu)訓(xùn)練集群,并研發(fā)了Megascale生產(chǎn)系統(tǒng)用于訓(xùn)練大語言模型,該系統(tǒng)在提高算力利用率和訓(xùn)練效率方面取得了顯著成果。

螞蟻集團(tuán):在去年透露已建成萬卡異構(gòu)算力集群,為其在人工智能領(lǐng)域的業(yè)務(wù)發(fā)展提供了有力的支持。

騰訊:推出的高性能網(wǎng)絡(luò)星脈,具備業(yè)界最高的3.2T通信帶寬,為AI大模型帶來10倍通信性能提升?;隍v訊云新一代算力集群HCC,可支持10萬卡GPU的超大計算規(guī)模。

AI初創(chuàng)企業(yè)和硬件廠商

摩爾線程:發(fā)布了一款兼具“超大規(guī)模+高通用性+生態(tài)兼容”的國產(chǎn)GPU萬卡集群解決方案——“夸娥萬卡智算集群”,標(biāo)志著國產(chǎn)GPU正式邁入萬卡時代。

華為:2023年宣布昇騰AI集群全面升級,集群規(guī)模從4000卡集群擴(kuò)展至16000卡,是業(yè)界首個萬卡AI集群,擁有更快的訓(xùn)練速度和30天以上的穩(wěn)定訓(xùn)練周期。

二、萬卡集群的技術(shù)挑戰(zhàn)

萬卡集群的構(gòu)建并非簡單地將大量GPU卡堆疊在一起,而是面臨著諸多技術(shù)挑戰(zhàn):

1、效率問題

通信開銷:訓(xùn)練大語言模型并非簡單的并行任務(wù),在萬卡集群中,GPU之間需要頻繁通信以協(xié)同推進(jìn)訓(xùn)練進(jìn)程。大量的通信數(shù)據(jù)在網(wǎng)絡(luò)中傳輸會帶來較大的延遲和開銷,影響訓(xùn)練效率。例如,在張量并行和流水線并行的過程中,設(shè)備間需要頻繁地交換數(shù)據(jù)和同步參數(shù),這對網(wǎng)絡(luò)帶寬和延遲提出了極高的要求。

計算與存儲平衡:大模型的訓(xùn)練需要大量的計算資源和存儲資源。在萬卡集群中,如何合理地分配計算任務(wù)和存儲資源,使得GPU在進(jìn)行計算時能夠快速地獲取所需的數(shù)據(jù),避免因數(shù)據(jù)傳輸和存儲瓶頸導(dǎo)致的計算等待,是一個需要解決的問題。此外,隨著模型規(guī)模的不斷增大,模型參數(shù)的存儲需求也會急劇增加,如何有效地管理和利用GPU的顯存以及外部存儲設(shè)備,也是提高效率的關(guān)鍵。

操作符優(yōu)化:操作符是構(gòu)成模型計算的基本單元,對操作符的優(yōu)化能夠提高計算效率。在萬卡集群中,需要對諸如矩陣乘法、卷積等常用操作符進(jìn)行優(yōu)化,減少計算過程中的冗余操作和內(nèi)存訪問,提高GPU的利用率。同時,對于一些復(fù)雜的操作符,如LayerNorm和Gelu等,需要進(jìn)行融合操作,以減少內(nèi)核啟動的開銷。

2、穩(wěn)定性問題

硬件故障:萬卡集群由大量的硬件設(shè)備組成,硬件故障的概率較高。在訓(xùn)練過程中,單個GPU卡、服務(wù)器、網(wǎng)絡(luò)設(shè)備等的故障都可能導(dǎo)致訓(xùn)練任務(wù)的中斷或失敗。而且,由于集群規(guī)模龐大,故障的定位和排查也變得非常困難,需要耗費大量的時間和精力。

軟件兼容性:萬卡集群涉及到多個層次的軟件系統(tǒng),包括操作系統(tǒng)、驅(qū)動程序、訓(xùn)練框架、分布式通信庫等。這些軟件之間的兼容性問題可能會導(dǎo)致系統(tǒng)的不穩(wěn)定,例如驅(qū)動程序與訓(xùn)練框架的不兼容可能會導(dǎo)致GPU無法正常工作,分布式通信庫的版本不兼容可能會導(dǎo)致通信異常。

數(shù)據(jù)一致性:在分布式訓(xùn)練中,多個GPU同時對模型參數(shù)進(jìn)行更新,需要保證數(shù)據(jù)的一致性。如果數(shù)據(jù)同步不及時或出現(xiàn)錯誤,可能會導(dǎo)致模型的訓(xùn)練結(jié)果不準(zhǔn)確,甚至使訓(xùn)練過程無法收斂。因此,需要設(shè)計有效的數(shù)據(jù)同步機制和一致性校驗算法,確保數(shù)據(jù)的正確性和一致性。

3、可擴(kuò)展性問題

網(wǎng)絡(luò)拓?fù)洌弘S著集群規(guī)模的不斷擴(kuò)大,網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的設(shè)計變得至關(guān)重要。傳統(tǒng)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)可能無法滿足萬卡集群的需求,需要設(shè)計更加高效、靈活的網(wǎng)絡(luò)拓?fù)?,以降低網(wǎng)絡(luò)延遲和通信開銷,提高網(wǎng)絡(luò)的可擴(kuò)展性。例如,胖樹拓?fù)浣Y(jié)構(gòu)在小規(guī)模集群中應(yīng)用廣泛,但在萬卡集群中,需要對其進(jìn)行改進(jìn)和優(yōu)化,以降低成本和提高性能。

資源管理:萬卡集群中的資源管理非常復(fù)雜,需要對GPU、CPU、內(nèi)存、網(wǎng)絡(luò)等資源進(jìn)行統(tǒng)一的管理和調(diào)度。如何根據(jù)訓(xùn)練任務(wù)的需求,動態(tài)地分配和調(diào)整資源,提高資源的利用率,同時保證各個任務(wù)之間的隔離性和安全性,是一個具有挑戰(zhàn)性的問題。

系統(tǒng)升級:隨著技術(shù)的不斷發(fā)展,萬卡集群需要不斷地進(jìn)行升級和維護(hù)。如何在不影響現(xiàn)有訓(xùn)練任務(wù)的情況下,對系統(tǒng)進(jìn)行升級和擴(kuò)展,是一個需要解決的問題。例如,在添加新的GPU卡或更新軟件系統(tǒng)時,需要確保系統(tǒng)的穩(wěn)定性和兼容性。

三、萬卡集群的技術(shù)探索

為了應(yīng)對萬卡集群的技術(shù)挑戰(zhàn),企業(yè)和研究機構(gòu)在不斷地進(jìn)行技術(shù)探索和創(chuàng)新:

1、算法優(yōu)化

并行算法改進(jìn):研究人員不斷探索新的并行算法和策略,以提高模型訓(xùn)練的效率和可擴(kuò)展性。例如,采用自適應(yīng)的混合并行策略,根據(jù)模型的特點和硬件資源的情況,自動地選擇數(shù)據(jù)并行、張量并行和流水線并行的比例,以達(dá)到最佳的訓(xùn)練效果。

模型壓縮:為了減少模型的存儲需求和計算量,研究人員采用模型壓縮技術(shù),如量化、剪枝等。量化技術(shù)將模型參數(shù)的精度降低,減少存儲和計算開銷;剪枝技術(shù)則去除模型中的冗余參數(shù),提高模型的計算效率。

優(yōu)化器改進(jìn):優(yōu)化器是模型訓(xùn)練中的重要組成部分,對訓(xùn)練速度和模型性能有著重要的影響。研究人員不斷改進(jìn)優(yōu)化器算法,如采用更高效的自適應(yīng)學(xué)習(xí)率算法、引入二階優(yōu)化算法等,提高模型的訓(xùn)練速度和收斂性。

2、系統(tǒng)架構(gòu)優(yōu)化

分布式通信優(yōu)化:通過對分布式通信框架的優(yōu)化,減少通信延遲和開銷。例如,優(yōu)化集體通信群的初始化過程,縮短通信初始化的時間;采用高效的通信協(xié)議和算法,提高通信的效率和可靠性。

硬件加速:利用硬件加速技術(shù),如FPGA、ASIC等,對模型的計算過程進(jìn)行加速。這些硬件加速器具有較高的并行度和計算效率,能夠有效地提高模型的訓(xùn)練速度。同時,與GPU相比,它們的功耗更低,能夠降低系統(tǒng)的能耗。

液冷技術(shù):萬卡集群的能耗非常高,散熱問題是一個關(guān)鍵的挑戰(zhàn)。液冷技術(shù)能夠有效地降低服務(wù)器的溫度,提高系統(tǒng)的穩(wěn)定性和可靠性。同時,液冷技術(shù)還能夠降低數(shù)據(jù)中心的能耗,減少運營成本。

3、智能化運維

故障預(yù)測和自動恢復(fù):利用機器學(xué)習(xí)和大數(shù)據(jù)分析技術(shù),對萬卡集群的運行狀態(tài)進(jìn)行實時監(jiān)測和分析,預(yù)測潛在的故障,并提前采取措施進(jìn)行預(yù)防。同時,當(dāng)故障發(fā)生時,能夠自動地進(jìn)行故障定位和恢復(fù),縮短故障恢復(fù)的時間,提高系統(tǒng)的可用性。

資源智能調(diào)度:通過對訓(xùn)練任務(wù)的特點和資源需求的分析,實現(xiàn)資源的智能調(diào)度和分配。例如,根據(jù)任務(wù)的優(yōu)先級、計算量、所需資源等因素,自動地將任務(wù)分配到合適的GPU上進(jìn)行計算,提高資源的利用率和系統(tǒng)的整體性能。

性能優(yōu)化建議:基于對系統(tǒng)運行數(shù)據(jù)的分析,為用戶提供性能優(yōu)化建議,幫助用戶調(diào)整模型參數(shù)、訓(xùn)練策略等,以提高模型的訓(xùn)練效率和性能。

結(jié)語

總之,萬卡集群是人工智能領(lǐng)域的重要發(fā)展方向,具有巨大的應(yīng)用潛力。然而,萬卡集群的構(gòu)建和應(yīng)用面臨著諸多技術(shù)挑戰(zhàn),需要企業(yè)和研究機構(gòu)不斷地進(jìn)行技術(shù)探索和創(chuàng)新,以推動萬卡集群技術(shù)的不斷發(fā)展和應(yīng)用。

分享到

lixiangjing

算力豹主編

相關(guān)推薦