作為面向產(chǎn)業(yè)界和學(xué)術(shù)界、在處理器及系統(tǒng)架構(gòu)師領(lǐng)域的深度技術(shù)盛會(huì),Hot Chips已經(jīng)成為價(jià)值萬億美元的數(shù)據(jù)中心計(jì)算市場的一個(gè)重要論壇。
在本周舉行的 Hot Chips 2024 上,NVIDIA 的高級(jí)工程師們展示了為 NVIDIA Blackwell 平臺(tái)提供動(dòng)力的最新技術(shù)進(jìn)展,以及新的數(shù)據(jù)中心液冷研究成果和用于芯片設(shè)計(jì)的 AI 代理。
他們圍繞如下內(nèi)容展開了介紹:
· NVIDIA Blackwell 集合了多種芯片、系統(tǒng)和 NVIDIA CUDA 軟件,為跨應(yīng)用場景、行業(yè)和國家的新一代 AI 提供動(dòng)力。
· NVIDIA GB200 NVL72——一個(gè)多節(jié)點(diǎn)、液冷、機(jī)架級(jí)擴(kuò)展解決方案,可連接 72 個(gè) Blackwell GPU 和 36 個(gè) Grace CPU——提升了 AI 系統(tǒng)設(shè)計(jì)的標(biāo)準(zhǔn)。
· NVLink 互連技術(shù)提供多對(duì)多 GPU 間的通信,為生成式 AI 實(shí)現(xiàn)創(chuàng)紀(jì)錄的高吞吐量和低延遲推理。
· NVIDIA Quasar 量化系統(tǒng)突破物理極限,加速 AI 計(jì)算。
· NVIDIA 研究人員正在構(gòu)建 AI 模型,此模型將協(xié)助打造用于 AI 的處理器。
在一場關(guān)于 NVIDIA Blackwell 的演講中,重點(diǎn)介紹了新架構(gòu)的細(xì)節(jié)以及在 Blackwell 芯片上運(yùn)行的生成式 AI 模型的示例。
另外的三場講座,內(nèi)容涵蓋混合液冷解決方案如何幫助數(shù)據(jù)中心過渡到能效更高的基礎(chǔ)設(shè)施,以及包括大語言模型驅(qū)動(dòng)的 AI 代理在內(nèi)的模型如何幫助工程師設(shè)計(jì)下一代處理器。
這些演講共同展示了 NVIDIA 工程師們?cè)跀?shù)據(jù)中心計(jì)算和設(shè)計(jì)的每一個(gè)領(lǐng)域都在進(jìn)行創(chuàng)新,以提供前所未有的性能、能效和優(yōu)化。
為 Blackwell 做好準(zhǔn)備
NVIDIA Blackwell 是全棧計(jì)算的極限挑戰(zhàn)。它由多個(gè) NVIDIA 芯片組成,包括 Blackwell GPU、Grace CPU、BlueField 數(shù)據(jù)處理器、ConnectX 智能網(wǎng)卡、NVLink Switch、Spectrum 以太網(wǎng)交換機(jī)和 Quantum InfiniBand 交換機(jī)。
NVIDIA 架構(gòu)總監(jiān) Ajay Tirumala 和 Raymond Wong 現(xiàn)場首次展示了該平臺(tái),并解釋了這些技術(shù)是如何協(xié)同配合,在提高能效的同時(shí)為 AI 和加速計(jì)算的性能確立新的標(biāo)準(zhǔn)。
多節(jié)點(diǎn) NVIDIA GB200 NVL72 解決方案正是一個(gè)恰如其分的例子。LLM 推理需要低延遲、高吞吐量的 token 生成。GB200 NVL72 作為一個(gè)統(tǒng)一的系統(tǒng),為 LLM 工作負(fù)載提供最多至 30 倍的推理速度提升,使得實(shí)時(shí)運(yùn)行萬億參數(shù)模型成為可能。
Tirumala 和 Wong 還探討了 NVIDIA Quasar 量化系統(tǒng)如何在低精度模型上實(shí)現(xiàn)高準(zhǔn)確度,并重點(diǎn)介紹了使用 LLM 和視覺生成式 AI 的例子。NVIDIA Quasar 量化系統(tǒng)結(jié)合了算法創(chuàng)新、NVIDIA 軟件庫和工具以及 Blackwell 的第二代 Transformer 引擎。
讓數(shù)據(jù)中心保持“涼爽”
通過風(fēng)冷和液冷結(jié)合的混合冷卻,研究人員開發(fā)出了更高效和可持續(xù)的解決方案,有望讓傳統(tǒng)風(fēng)冷數(shù)據(jù)中心的嗡嗡作響成為歷史。
與風(fēng)冷技術(shù)相比,液冷技術(shù)能夠更高效地為系統(tǒng)散熱,從而使計(jì)算系統(tǒng)即使在處理大型工作負(fù)載時(shí)也更容易保持低溫狀態(tài)。液冷設(shè)備也比風(fēng)冷系統(tǒng)占用更少的空間,耗電量更低,從而使數(shù)據(jù)中心可以在其設(shè)施中添加更多服務(wù)器機(jī)架,以增加更多算力。
NVIDIA 數(shù)據(jù)中心冷卻和基礎(chǔ)設(shè)施總監(jiān) Ali Heydari 介紹了幾種混合冷卻數(shù)據(jù)中心的設(shè)計(jì)方案。
有些設(shè)計(jì)方案利用液冷單元改造現(xiàn)有的風(fēng)冷數(shù)據(jù)中心,為現(xiàn)有機(jī)架增加液冷功能提供了一種快速、便捷的解決方案。其它設(shè)計(jì)方案則需要使用冷卻液分配單元,安裝管道以直接對(duì)芯片進(jìn)行液體冷卻,或者將服務(wù)器完全浸入到冷卻水箱中。盡管這些設(shè)計(jì)需要較大的前期投資,但卻能夠大幅降低能耗和運(yùn)營成本。
Heydari 還介紹了其團(tuán)隊(duì)在 COOLERCHIPS 項(xiàng)目中的工作,這個(gè)項(xiàng)目旨在開發(fā)先進(jìn)的數(shù)據(jù)中心冷卻技術(shù)。作為該項(xiàng)目的一部分,Heydari 的團(tuán)隊(duì)正在使用 NVIDIA Omniverse 平臺(tái)來創(chuàng)建基于物理的數(shù)字孿生,這將幫助他們對(duì)能耗和冷卻效率進(jìn)行建模,以優(yōu)化數(shù)據(jù)中心設(shè)計(jì)。
AI 代理助力處理器設(shè)計(jì)
半導(dǎo)體設(shè)計(jì)在微觀尺度上是一個(gè)巨大的挑戰(zhàn)。開發(fā)尖端處理器的工程師們努力在一個(gè)幾英寸大的芯片上裝進(jìn)盡可能多的算力,測試物理上可以實(shí)現(xiàn)的極限。
通過提高設(shè)計(jì)質(zhì)量和生產(chǎn)力、提高人工流程的效率以及自動(dòng)化處理一些耗時(shí)的任務(wù),AI 模型正在為工程師們的工作提供支持。這些模型包括幫助工程師快速分析和改進(jìn)設(shè)計(jì)的預(yù)測和優(yōu)化工具,以及可以幫助解答工程師的問題、生成代碼、調(diào)試設(shè)計(jì)問題等的 LLM。
NVIDIA 設(shè)計(jì)自動(dòng)化研究總監(jiān) Mark Ren 在一場講座中對(duì)上述這些模型及其應(yīng)用進(jìn)行了總體介紹。在另一場會(huì)議中,他還重點(diǎn)介紹了用于芯片設(shè)計(jì)的基于 AI 代理的系統(tǒng)。
由 LLM 驅(qū)動(dòng)的 AI 代理可以被引導(dǎo)自主完成任務(wù),從而在各行各業(yè)解鎖廣泛的應(yīng)用。在微處理器設(shè)計(jì)方面,NVIDIA 研究人員正在開發(fā)基于代理的系統(tǒng),這種系統(tǒng)可以使用定制的電路設(shè)計(jì)工具進(jìn)行推理和采取行動(dòng),與經(jīng)驗(yàn)豐富的設(shè)計(jì)師互動(dòng),并從人類和代理積累的經(jīng)驗(yàn)的數(shù)據(jù)庫中學(xué)習(xí)。
NVIDIA 專家們不僅正在打造這項(xiàng)技術(shù),也在使用它。Mark Ren 分享了幾個(gè)例子,包括工程師如何將 AI 代理用于時(shí)序報(bào)告分析、單元集群優(yōu)化流程和代碼生成。在第一屆 IEEE 大語言模型輔助設(shè)計(jì)國際研討會(huì)(LAD’24)上,這項(xiàng)單元集群優(yōu)化工作榮膺最佳論文。