隨著新一代 AI 模型的規(guī)模突破現(xiàn)有 AI 集群的能力上限,市場對大規(guī)模 AI 算力的需求正加速增長。為訓(xùn)練和運(yùn)行這類工作負(fù)載,客戶需要具備極致規(guī)模與效率并且靈活、開放的計(jì)算解決方案。OCI 計(jì)劃推出的新 AI 超級(jí)集群將采用 AMD 的 Helios 機(jī)架設(shè)計(jì) — 該機(jī)架搭載 AMD Instinct MI450 系列 GPU、代號(hào) “Venice” 的新一代 AMD EPYC? CPU、代號(hào) “Vulcano” 的新一代 AMD Pensando? 高級(jí)網(wǎng)絡(luò)。這是一種經(jīng)過垂直優(yōu)化的機(jī)架級(jí)架構(gòu),旨在為大規(guī)模 AI 訓(xùn)練與推理工作負(fù)載提供極致性能、可擴(kuò)展性和能源效率。

甲骨文公司Oracle Cloud Infrastructure 執(zhí)行副總裁 Mahesh Thiagarajan 表示:“我們的客戶正在構(gòu)建極具前瞻性的 AI 應(yīng)用,這離不開穩(wěn)健、可擴(kuò)展且高性能的基礎(chǔ)設(shè)施。而 Oracle 與 AMD 合作,意味著客戶既能享受 AMD 前沿處理器的創(chuàng)新技術(shù),又能獲得 OCI 安全、靈活的平臺(tái)以及 Oracle Acceleron 驅(qū)動(dòng)的高級(jí)網(wǎng)絡(luò),憑借二者合力來自信地開拓新的邊界。從 EPYC 到 AMD Instinct 加速器,Oracle 與 AMD 合作已有十年之久。未來,我們將繼續(xù)聯(lián)手 AMD,為客戶提供一個(gè)開放、安全、可擴(kuò)展且具有出色價(jià)格性能比的云基礎(chǔ)架構(gòu),滿足客戶在新 AI 時(shí)代的需求。”

AMD 數(shù)據(jù)中心解決方案業(yè)務(wù)部門執(zhí)行副總栽兼總經(jīng)理 Forrest Norrod 表示:“AMD 和 Oracle 將繼續(xù)引領(lǐng)云端 AI 創(chuàng)新風(fēng)潮。我們的 AMD Instinct GPU、EPYC CPU 和高級(jí) AMD Pensando 網(wǎng)絡(luò),能夠以強(qiáng)大的新功能幫助 Oracle 客戶訓(xùn)練、調(diào)優(yōu)和部署新一代 AI。AMD 與 Oracle 聯(lián)手,將能夠以開放、優(yōu)化、安全且專為大規(guī)模 AI 數(shù)據(jù)中心構(gòu)建的出色系統(tǒng)加速 AI 發(fā)展?!?/p>

AMD Instinct MI450 系列 GPU 即將登陸OCI

搭載 AMD Instinct MI450 系列 GPU 的配置旨在提供高性能、靈活的云技術(shù)部署選擇和廣泛的開源支持。這將構(gòu)建一個(gè)堅(jiān)實(shí)基礎(chǔ),幫助客戶運(yùn)行當(dāng)今前沿的語言模型、生成式 AI 和高性能計(jì)算工作負(fù)載。使用基于 OCI 的 AMD Instinct MI450 系列 GPU,客戶能夠獲得以下優(yōu)勢:

突破性的計(jì)算和內(nèi)存:針對 AI 訓(xùn)練模型提高內(nèi)存帶寬,幫助客戶更快地獲得結(jié)果、處理更復(fù)雜的工作負(fù)載、減少模型分區(qū)需求。每顆 AMD Instinct MI450 系列 GPU 將提供高達(dá) 432 GB 的 HBM4 內(nèi)存和 20 TB/秒的內(nèi)存帶寬,支持客戶完全在內(nèi)存中訓(xùn)練和推理在規(guī)模上比前幾代大 50% 的模型。

AMD 優(yōu)化的 Helios 機(jī)架設(shè)計(jì):通過高密度、液冷式 72-GPU 機(jī)架助力客戶實(shí)現(xiàn)大規(guī)模運(yùn)行,同時(shí)優(yōu)化性能密度、成本與能效。AMD Helios 機(jī)架整合了 UALoE 縱向擴(kuò)展連接性和基于以太網(wǎng)、符合超以太網(wǎng)聯(lián)盟 (UEC) 標(biāo)準(zhǔn)的橫向擴(kuò)展網(wǎng)絡(luò),能夠盡可能降低跨 Pod 與跨機(jī)架的延遲并提高吞吐量。

強(qiáng)大的頭節(jié)點(diǎn):在一個(gè)搭載新一代 AMD EPYC CPU(代號(hào) “Venice”)的架構(gòu)上加快作業(yè)編排與數(shù)據(jù)處理速度,助力客戶充分提升集群利用率,簡化大規(guī)模工作流。此外,EPYC CPU 還提供機(jī)密計(jì)算功能和內(nèi)置安全特性,有助于端到端地保護(hù)敏感 AI 工作負(fù)載。

DPU 加速的融合網(wǎng)絡(luò):驅(qū)動(dòng)線速數(shù)據(jù)攝入,以此提升大規(guī)模 AI 和云基礎(chǔ)設(shè)施的性能并增強(qiáng)安全性。以完全可編程的 AMD Pensando DPU 技術(shù)為基礎(chǔ),DPU 加速的融合網(wǎng)絡(luò)可憑借強(qiáng)大性能和安全性,滿足數(shù)據(jù)中心在運(yùn)行新一代 AI 訓(xùn)練、推理以及云工作負(fù)載上的需求。

面向 AI 的橫向擴(kuò)展網(wǎng)絡(luò):通過一個(gè)未來就緒的開放網(wǎng)絡(luò)結(jié)構(gòu),幫助客戶實(shí)現(xiàn)超高速的分布式訓(xùn)練和優(yōu)化的集合通信。每顆 GPU 搭載多達(dá) 3 個(gè) 800 Gbps 的 AMD Pensando(代號(hào) “Vulcano”)AI-NIC,可為客戶提供無丟包、高速、可編程且支持先進(jìn) RoCE 和 UEC 標(biāo)準(zhǔn)的連接性。

創(chuàng)新型 UALink 和 UALoE 結(jié)構(gòu):幫助客戶高效擴(kuò)展工作負(fù)載、減少內(nèi)存瓶頸、編排大型萬億參數(shù)級(jí)模型。這一可擴(kuò)展架構(gòu)不使用 CPU 進(jìn)行路由,可以盡可能減少網(wǎng)絡(luò)跳數(shù)和降低延遲;同時(shí)還能借助基于 UALoE 結(jié)構(gòu)傳輸?shù)?UALink 協(xié)議,實(shí)現(xiàn)機(jī)架內(nèi) GPU 之間直接、硬件協(xié)同的網(wǎng)絡(luò)連接與內(nèi)存共享。UALink 是一項(xiàng)專為 AI 加速器構(gòu)建的開放式高速互連標(biāo)準(zhǔn),以一個(gè)龐大的行業(yè)生態(tài)系統(tǒng)為后盾。因此,客戶能夠獲得所需靈活性、可擴(kuò)展性與可靠性,在基于開放標(biāo)準(zhǔn)的基礎(chǔ)設(shè)施上運(yùn)行具有嚴(yán)苛要求的 AI 工作負(fù)載。

開源 AMD ROCm? 軟件通過一個(gè)開放、靈活的開發(fā)環(huán)境(包含主流框架、庫、編譯器及運(yùn)行時(shí)系統(tǒng))助力客戶快速創(chuàng)新,自主選擇供應(yīng)商,簡化現(xiàn)有 AI 與 HPC 工作負(fù)載的遷移過程。

高級(jí)分區(qū)和虛擬化:通過細(xì)粒度 GPU 與 Pod 分區(qū)、SR-IOV 虛擬化以及可靠的多租戶技術(shù)驅(qū)動(dòng)安全、高效的資源利用,幫助客戶基于工作負(fù)載需求來安全地共享集群和分配 GPU 資源。

針對大規(guī)模構(gòu)建 AI 模型以及運(yùn)行 AI 模型訓(xùn)練和推理工作負(fù)載的客戶,OCI 還宣布全面推出搭載 AMD Instinct MI355X GPU 的 OCI Compute。這些服務(wù)未來將在可擴(kuò)展到 131,072 顆 GPU 的 Zettascale OCI Supercluster 中提供。搭載 AMD Instinct MI355X 的配置具有出色的性價(jià)比、云端靈活性和開源兼容性。想了解更多信息,請點(diǎn)擊這里和這里。

分享到

zhupb

相關(guān)推薦