馬斯克在超級(jí)計(jì)算機(jī)方面投入巨大。今年5月份,Colossus首次被公開,并在7月份開始運(yùn)行。馬斯克在社交媒體上表示,Colossus的建設(shè)“從零到一,僅用了122天”,并稱贊其為“全球最強(qiáng)大的AI訓(xùn)練系統(tǒng)”。Colossus裝備了10萬個(gè)Nvidia基準(zhǔn)Hopper H100處理器,數(shù)量之多超過了任何其他單一的AI計(jì)算集群。為了讓xAI迅速崛起,馬斯克對(duì)該初創(chuàng)公司不斷大力投入。9月3日,馬斯克宣布xAI打造的包含超10萬顆英偉達(dá)H100GPU的超級(jí)人工智能訓(xùn)練集群已經(jīng)正式上線,該集群名為“Colossus”。他透露,團(tuán)隊(duì)花了122天來完成Colossus的上線過程。Colossus還將在未來幾個(gè)月內(nèi)增加10萬顆GPU,其中,5萬顆將是更為先進(jìn)的英偉達(dá)H200,這意味著Colossus的算力將再次翻倍。此外,若xAI新一輪融資成功,估值將達(dá)400億美元。這無疑顯示了馬斯克在超級(jí)計(jì)算機(jī)領(lǐng)域的堅(jiān)定決心和巨大投入。

xAIColossus超級(jí)計(jì)算機(jī)的誕生,標(biāo)志著人工智能領(lǐng)域的又一個(gè)重要里程碑。它的強(qiáng)大技術(shù)實(shí)力和馬斯克的大力投入,將為人工智能的發(fā)展帶來新的機(jī)遇和挑戰(zhàn)。

xAI Colossus技術(shù)細(xì)節(jié)有哪些

xAI的Colossus超級(jí)計(jì)算機(jī)是人工智能領(lǐng)域的一項(xiàng)重大突破。它由連接在單一網(wǎng)絡(luò)結(jié)構(gòu)上的10萬個(gè)液冷Nvidia H100 GPU組成,被認(rèn)為是世界上“最強(qiáng)大的”人工智能訓(xùn)練系統(tǒng)。

每個(gè)GPU配備400GbE的網(wǎng)絡(luò)接口控制器,確保每臺(tái)HGX H100服務(wù)器達(dá)到3.6Terabit每秒的以太網(wǎng)帶寬。xAI采用了Supermicro的4U通用GPU系統(tǒng),每個(gè)服務(wù)器包含八個(gè)H100 GPU,封裝在Supermicro的4U通用液冷GPU系統(tǒng)內(nèi),為每個(gè)GPU提供便捷的熱插拔液冷功能。這些服務(wù)器裝載在機(jī)架上,每個(gè)機(jī)架可容納八個(gè)服務(wù)器,即每個(gè)機(jī)架64個(gè)GPU。整個(gè)Colossus集群中有超過1500個(gè)GPU機(jī)架,約200組。

隨著GPU數(shù)量的增加,散熱問題變得越來越嚴(yán)重。Colossus采用了先進(jìn)的液冷技術(shù)來解決散熱問題。每個(gè)GPU都配備了專門的液冷裝置,1U冷卻總管夾在每個(gè)HGXH100之間,為服務(wù)器提供必要的液冷。這些系統(tǒng)具備先進(jìn)的液冷技術(shù),提升了散熱效率,確保了高性能計(jì)算的穩(wěn)定性。液冷設(shè)計(jì)使得系統(tǒng)在運(yùn)行高負(fù)荷任務(wù)時(shí),能夠保持較低的溫度。液冷技術(shù)的應(yīng)用不僅提高了冷卻效率,降低了系統(tǒng)的溫度,還減少了噪音污染,為大規(guī)模數(shù)據(jù)中心的可持續(xù)發(fā)展提供了有力支持。

Colossus的核心是英偉達(dá)的H100顯卡,該顯卡自2022年首次亮相以來,一直被認(rèn)為是英偉達(dá)最強(qiáng)大的AI處理器。H100顯卡的運(yùn)行速度是英偉達(dá)上一代GPU的30倍,這得益于其Transformer Engine模塊,這是一組專門優(yōu)化的電路,用于運(yùn)行基于Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu)的AI模型。

xAI計(jì)劃在未來幾個(gè)月內(nèi)將Colossus擴(kuò)展至200000個(gè)GPU(50000個(gè)H200)。這些較新的GPU設(shè)計(jì)在內(nèi)存和處理能力方面得到了增強(qiáng),承諾將提供更強(qiáng)大的計(jì)算性能。

除了強(qiáng)大的GPU集群,Colossus還配置了CPU計(jì)算服務(wù)器。這些服務(wù)器多為NVMe直通的1U服務(wù)器,采用某種x86平臺(tái)CPU,配備后置液冷系統(tǒng),用于存儲(chǔ)和CPU計(jì)算,為整個(gè)系統(tǒng)的運(yùn)行提供了必要的輔助計(jì)算能力。

網(wǎng)絡(luò)互聯(lián)方面,Colossus投入巨大。Colossus使用的英偉達(dá)Spectrum-X以太網(wǎng)網(wǎng)絡(luò)平臺(tái),就是為多租戶、超大規(guī)模的AI工廠提供卓越性能而設(shè)計(jì)的RDMA(Remote Direct Memory Access)網(wǎng)絡(luò)。每塊顯卡都配備了一個(gè)400GbE的專用網(wǎng)絡(luò)接口控制器(NIC),每個(gè)服務(wù)器還額外配備一個(gè)400Gb的NIC,這意味著每臺(tái)HGX H100服務(wù)器的以太網(wǎng)速度可達(dá)3.6Tbps。整個(gè)集群都運(yùn)行在以太網(wǎng)上,而非超級(jí)計(jì)算領(lǐng)域常用的Infiniband或其他異構(gòu)連接。這種以太網(wǎng)連接方式在保證高帶寬的同時(shí),也降低了網(wǎng)絡(luò)連接的復(fù)雜性和成本。

為了確保超級(jí)計(jì)算機(jī)的高效運(yùn)行和管理,xAI團(tuán)隊(duì)開發(fā)了專門的操作系統(tǒng)和管理軟件。這些軟件能夠?qū)τ布Y源進(jìn)行合理分配和調(diào)度,監(jiān)控系統(tǒng)的運(yùn)行狀態(tài),及時(shí)發(fā)現(xiàn)和解決潛在的問題,保證系統(tǒng)的穩(wěn)定性和可靠性。

Colossus超級(jí)計(jì)算機(jī)將服務(wù)于馬斯克旗下xAI,該公司專注于前沿生成式人工智能技術(shù)的研發(fā)。它已經(jīng)推出的項(xiàng)目包括Grok,這是一個(gè)因支持言論自由而聞名的、有爭(zhēng)議的聊天機(jī)器人。借助“巨像”無與倫比的計(jì)算能力,xAI正加速推進(jìn)Grok及其他人工智能模型的訓(xùn)練進(jìn)程,旨在解鎖更多功能,并實(shí)現(xiàn)性能飛躍。

馬斯克對(duì)超級(jí)計(jì)算機(jī)投入有多大

馬斯克在超級(jí)計(jì)算機(jī)方面的投入可謂巨大。埃隆·馬斯克激活全球最強(qiáng)人工智能超級(jí)計(jì)算機(jī),為他的人工智能初創(chuàng)公司xAI在田納西州建造了Colossus。這臺(tái)超級(jí)計(jì)算機(jī)是用英偉達(dá)H100圖形處理單元構(gòu)建的,僅采購英偉達(dá)H100 GPU估計(jì)耗資就達(dá)30億美元。每顆GPU的造價(jià)都不菲,約為4萬美元。

為了確保獲取到這最新的10萬塊H100 GPU,馬斯克可能不得不再花費(fèi)數(shù)十億美元。此外,馬斯克旗下的特斯拉也在超級(jí)計(jì)算機(jī)方面有投入。特斯拉在“德州超級(jí)工廠”擁有一臺(tái)50000個(gè)GPU的Cortex超級(jí)計(jì)算機(jī),其目的是通過攝像頭和圖像檢測(cè)來訓(xùn)練特斯拉的自動(dòng)駕駛AI技術(shù),以及特斯拉的自動(dòng)機(jī)器人和其他AI項(xiàng)目。

特斯拉將加入愈演愈烈的算力大賽,明年底之前,將花費(fèi)遠(yuǎn)遠(yuǎn)超過10億美元在Dojo項(xiàng)目上。Dojo是特斯拉自研的多芯片模組化超級(jí)計(jì)算機(jī),最初主要服務(wù)于自動(dòng)駕駛系統(tǒng)的數(shù)據(jù)標(biāo)注以及訓(xùn)練,后也被應(yīng)用于機(jī)器人研發(fā)。

馬斯克旗下xAI被曝正洽談新一輪融資,估值將達(dá)400億美元。若融資成功,xAI有望在半年不到的時(shí)間里將估值增加超六成。為了讓xAI迅速崛起,馬斯克對(duì)該初創(chuàng)公司不斷大力投入,9月3日,馬斯克在X平臺(tái)上宣布,xAI打造的包含超10萬顆英偉達(dá)H100 GPU的超級(jí)人工智能訓(xùn)練集群已經(jīng)正式上線。

xAI的Colossus超級(jí)計(jì)算機(jī)是人工智能領(lǐng)域的一顆璀璨明星。其強(qiáng)大的技術(shù)細(xì)節(jié)和馬斯克的巨大投入,彰顯了在人工智能領(lǐng)域的雄心壯志。Colossus的液冷技術(shù)、高帶寬網(wǎng)絡(luò)接口控制器以及強(qiáng)大的GPU配置,使其成為世界上最強(qiáng)大的人工智能訓(xùn)練系統(tǒng)之一。馬斯克在超級(jí)計(jì)算機(jī)方面的投入不僅體現(xiàn)了他對(duì)人工智能的重視,也為人工智能的發(fā)展提供了強(qiáng)大的動(dòng)力。未來,隨著技術(shù)的不斷進(jìn)步和投入的持續(xù)增加,Colossus有望在人工智能領(lǐng)域發(fā)揮更加重要的作用。

xAI Colossus超級(jí)計(jì)算機(jī)的出現(xiàn),標(biāo)志著人工智能領(lǐng)域的算力水平達(dá)到了一個(gè)新的高度。它不僅為xAI的人工智能研究和應(yīng)用提供了強(qiáng)大的支持,也為整個(gè)行業(yè)的發(fā)展樹立了新的標(biāo)桿。隨著人工智能技術(shù)的不斷發(fā)展,超級(jí)計(jì)算機(jī)的性能和技術(shù)水平還將不斷提升,馬斯克在這一領(lǐng)域的投入和貢獻(xiàn)也將繼續(xù)受到關(guān)注。

分享到

lixiangjing

算力豹主編

相關(guān)推薦