GTC視頻截圖

GB200:2080 億個晶體管,高達 20 petaflops FP4 計算能力

GB200 結(jié)合了兩個 GPU 和一個 Grace CPU,可以為 LLM 推理工作負載提供 30 倍的性能,同時還可能大大提高效率。Nvidia 表示,與 H100 相比,它的成本和能耗 “最多可降低 25 倍”,訓練一個 1.8 萬億個參數(shù)的模型以前需要 8,000 個 Hopper GPU 和 15 兆瓦的電力。如今,2000 個 Blackwell GPU 就能完成這項工作,而耗電量僅為 4 兆瓦。

圖源:英偉達

Nvidia 稱,在具有 1,750 億個參數(shù)的 GPT-3 LLM 基準測試中,GB200 的性能是 H100 的 7 倍,而 Nvidia 稱它的訓練速度是 H100 的 4 倍,其中一項關(guān)鍵改進是采用了第二代變壓器引擎,通過為每個神經(jīng)元使用四個比特而不是八個比特,將計算能力、帶寬和模型大小提高了一倍。第二個關(guān)鍵區(qū)別只有在連接大量 GPU 時才會出現(xiàn)。

圖源:英偉達

此外,新一代 NVLink 交換機可讓 576 個 GPU 相互連接,雙向帶寬達到每秒 1.8 TB。Nvidia 打造了一個全新的網(wǎng)絡(luò)交換芯片,該芯片擁有 500 億個晶體管和一些自己的板載計算功能。FP8 的運算能力為 3.6 teraflops,在此之前,一個由 16 個 GPU 組成的集群將有 60% 的時間用于相互通信,只有 40% 的時間用于實際計算。

為應對企業(yè)大量采購,英偉達發(fā)布了 GB200 NVL72液冷機架系統(tǒng)。GB200 NVL72可將36 個 CPU 和 72 個 GPU 集成到一個液冷機架中,可實現(xiàn)總計 720 petaflops 的 AI 訓練性能及1,440 petaflops的推理性能。其內(nèi)部有近兩英里長的電纜,共有 5000 條獨立電纜。機架上的每個托盤包含兩個 GB200 芯片或兩個 NVLink 交換機,每個機架有 18 個前者和 9 個后者。Nvidia 稱,其中一個機架總共可以支持 27 萬億個參數(shù)模型。消息稱,GPT-4 的參數(shù)模型約為 1.7 萬億。亞馬遜、谷歌、微軟和甲骨文都已計劃在其云服務(wù)產(chǎn)品中提供 NVL72 機架。

DGX SuperPOD:適用于萬億參數(shù)級的生成式 AI 超級計算

圖源:英偉達

同時,英偉達推出了Blackwell 架構(gòu) DGX SuperPOD,可將集群中 Grace Blackwell 超級芯片的數(shù)量擴展至數(shù)萬個,通過 NVIDIA NVLink將多達 576 塊 Blackwell GPU 相連,總共288 個 CPU、576 個 GPU、240TB 內(nèi)存和 11.5 exaflops 的 FP4 計算能力。Nvidia 表示,其系統(tǒng)可以擴展到數(shù)萬 GB200 超級芯片,并通過全新 Quantum-X800 InfiniBand(最多 144 個連接)或 Spectrum-X800 以太網(wǎng)(最多 64 個連接)與 800Gbps 網(wǎng)絡(luò)連接在一起。

分享到

nina

相關(guān)推薦