作為面向產(chǎn)業(yè)界和學術界、在處理器及系統(tǒng)架構師領域的深度技術盛會,Hot Chips已經(jīng)成為價值萬億美元的數(shù)據(jù)中心計算市場的一個重要論壇。

在本周舉行的 Hot Chips 2024 上,NVIDIA 的高級工程師們展示了為 NVIDIA Blackwell 平臺提供動力的最新技術進展,以及新的數(shù)據(jù)中心液冷研究成果和用于芯片設計的 AI 代理。

他們圍繞如下內(nèi)容展開了介紹:

· NVIDIA Blackwell 集合了多種芯片、系統(tǒng)和 NVIDIA CUDA 軟件,為跨應用場景、行業(yè)和國家的新一代 AI 提供動力。

· NVIDIA GB200 NVL72——一個多節(jié)點、液冷、機架級擴展解決方案,可連接 72 個 Blackwell GPU 和 36 個 Grace CPU——提升了 AI 系統(tǒng)設計的標準。

· NVLink 互連技術提供多對多 GPU 間的通信,為生成式 AI 實現(xiàn)創(chuàng)紀錄的高吞吐量和低延遲推理。

· NVIDIA Quasar 量化系統(tǒng)突破物理極限,加速 AI 計算。

· NVIDIA 研究人員正在構建 AI 模型,此模型將協(xié)助打造用于 AI 的處理器。

在一場關于 NVIDIA Blackwell 的演講中,重點介紹了新架構的細節(jié)以及在 Blackwell 芯片上運行的生成式 AI 模型的示例。

另外的三場講座,內(nèi)容涵蓋混合液冷解決方案如何幫助數(shù)據(jù)中心過渡到能效更高的基礎設施,以及包括大語言模型驅動的 AI 代理在內(nèi)的模型如何幫助工程師設計下一代處理器。

這些演講共同展示了 NVIDIA 工程師們在數(shù)據(jù)中心計算和設計的每一個領域都在進行創(chuàng)新,以提供前所未有的性能、能效和優(yōu)化。

為 Blackwell 做好準備

NVIDIA Blackwell 是全棧計算的極限挑戰(zhàn)。它由多個 NVIDIA 芯片組成,包括 Blackwell GPU、Grace CPU、BlueField 數(shù)據(jù)處理器、ConnectX 智能網(wǎng)卡、NVLink Switch、Spectrum 以太網(wǎng)交換機和 Quantum InfiniBand 交換機。

NVIDIA 架構總監(jiān) Ajay Tirumala 和 Raymond Wong 現(xiàn)場首次展示了該平臺,并解釋了這些技術是如何協(xié)同配合,在提高能效的同時為 AI 和加速計算的性能確立新的標準。

多節(jié)點 NVIDIA GB200 NVL72 解決方案正是一個恰如其分的例子。LLM 推理需要低延遲、高吞吐量的 token 生成。GB200 NVL72 作為一個統(tǒng)一的系統(tǒng),為 LLM 工作負載提供最多至 30 倍的推理速度提升,使得實時運行萬億參數(shù)模型成為可能。

Tirumala 和 Wong 還探討了 NVIDIA Quasar 量化系統(tǒng)如何在低精度模型上實現(xiàn)高準確度,并重點介紹了使用 LLM 和視覺生成式 AI 的例子。NVIDIA Quasar 量化系統(tǒng)結合了算法創(chuàng)新、NVIDIA 軟件庫和工具以及 Blackwell 的第二代 Transformer 引擎。

讓數(shù)據(jù)中心保持“涼爽”

通過風冷和液冷結合的混合冷卻,研究人員開發(fā)出了更高效和可持續(xù)的解決方案,有望讓傳統(tǒng)風冷數(shù)據(jù)中心的嗡嗡作響成為歷史。

與風冷技術相比,液冷技術能夠更高效地為系統(tǒng)散熱,從而使計算系統(tǒng)即使在處理大型工作負載時也更容易保持低溫狀態(tài)。液冷設備也比風冷系統(tǒng)占用更少的空間,耗電量更低,從而使數(shù)據(jù)中心可以在其設施中添加更多服務器機架,以增加更多算力。

NVIDIA 數(shù)據(jù)中心冷卻和基礎設施總監(jiān) Ali Heydari 介紹了幾種混合冷卻數(shù)據(jù)中心的設計方案。

有些設計方案利用液冷單元改造現(xiàn)有的風冷數(shù)據(jù)中心,為現(xiàn)有機架增加液冷功能提供了一種快速、便捷的解決方案。其它設計方案則需要使用冷卻液分配單元,安裝管道以直接對芯片進行液體冷卻,或者將服務器完全浸入到冷卻水箱中。盡管這些設計需要較大的前期投資,但卻能夠大幅降低能耗和運營成本。

Heydari 還介紹了其團隊在 COOLERCHIPS 項目中的工作,這個項目旨在開發(fā)先進的數(shù)據(jù)中心冷卻技術。作為該項目的一部分,Heydari 的團隊正在使用 NVIDIA Omniverse 平臺來創(chuàng)建基于物理的數(shù)字孿生,這將幫助他們對能耗和冷卻效率進行建模,以優(yōu)化數(shù)據(jù)中心設計。

AI 代理助力處理器設計

半導體設計在微觀尺度上是一個巨大的挑戰(zhàn)。開發(fā)尖端處理器的工程師們努力在一個幾英寸大的芯片上裝進盡可能多的算力,測試物理上可以實現(xiàn)的極限。

通過提高設計質(zhì)量和生產(chǎn)力、提高人工流程的效率以及自動化處理一些耗時的任務,AI 模型正在為工程師們的工作提供支持。這些模型包括幫助工程師快速分析和改進設計的預測和優(yōu)化工具,以及可以幫助解答工程師的問題、生成代碼、調(diào)試設計問題等的 LLM。

NVIDIA 設計自動化研究總監(jiān) Mark Ren 在一場講座中對上述這些模型及其應用進行了總體介紹。在另一場會議中,他還重點介紹了用于芯片設計的基于 AI 代理的系統(tǒng)。

由 LLM 驅動的 AI 代理可以被引導自主完成任務,從而在各行各業(yè)解鎖廣泛的應用。在微處理器設計方面,NVIDIA 研究人員正在開發(fā)基于代理的系統(tǒng),這種系統(tǒng)可以使用定制的電路設計工具進行推理和采取行動,與經(jīng)驗豐富的設計師互動,并從人類和代理積累的經(jīng)驗的數(shù)據(jù)庫中學習。

NVIDIA 專家們不僅正在打造這項技術,也在使用它。Mark Ren 分享了幾個例子,包括工程師如何將 AI 代理用于時序報告分析、單元集群優(yōu)化流程和代碼生成。在第一屆 IEEE 大語言模型輔助設計國際研討會(LAD’24)上,這項單元集群優(yōu)化工作榮膺最佳論文。

分享到

songjy

相關推薦