OCI Zettascale10 是首個(gè) Zettascale 云計(jì)算集群的強(qiáng)大升級(jí)版,該集群最初于 2024 年 9 月推出。OCI Zettascale10 集群部署在大規(guī)模千兆瓦數(shù)據(jù)中心園區(qū)內(nèi),這些園區(qū)在兩公里半徑范圍內(nèi)進(jìn)行了高度密集優(yōu)化,為大規(guī)模 AI 訓(xùn)練工作負(fù)載提供較低的 GPU-GPU 延遲。這一架構(gòu)正在阿比林 Stargate 站點(diǎn)與 OpenAI 共同部署。
甲骨文公司Oracle Cloud Infrastructure 執(zhí)行副總裁 Mahesh Thiagarajan 表示:“通過 OCI Zettascale10,我們將 OCI 的 Oracle Acceleron RoCE 網(wǎng)絡(luò)架構(gòu)與下一代 NVIDIA AI 基礎(chǔ)設(shè)施融合,實(shí)現(xiàn)多千兆瓦 AI 容量的大規(guī)模部署。客戶可以在單位性能消耗更低功率的情況下構(gòu)建、訓(xùn)練并部署更大規(guī)模的 AI 模型,并保證高可靠性。此外,客戶還可在 Oracle 分布式云中自由操作,同時(shí)享有強(qiáng)大的數(shù)據(jù)和 AI 主權(quán)控制?!?/p>
OpenAI 基礎(chǔ)設(shè)施與工業(yè)計(jì)算副總裁 Peter Hoeschele 表示: “OCI Zettascale10 的網(wǎng)絡(luò)與集群架構(gòu)首先在德克薩斯州阿比林的 Stargate 旗艦站點(diǎn)部署,這是我們與 Oracle 的聯(lián)合超算集群。高度可擴(kuò)展的定制 RoCE 設(shè)計(jì)在千兆瓦規(guī)模下提升整體性能,同時(shí)將大部分功率集中在計(jì)算上。我們期待繼續(xù)擴(kuò)大阿比林站點(diǎn)及整個(gè) Stargate 項(xiàng)目?!?/p>
OCI 計(jì)劃向客戶提供多千兆瓦級(jí)的 OCI Zettascale10 部署。初期,OCI Zettascale10 集群將支持多達(dá) 80 萬 NVIDIA GPU 的部署,提供可預(yù)測(cè)的性能和良好的成本效率,同時(shí)通過 Oracle Acceleron 超低延遲 RoCEv2 網(wǎng)絡(luò)實(shí)現(xiàn)高 GPUGPU 帶寬。
NVIDIA 超大規(guī)模副總裁 Ian Buck 表示: “Oracle 與 NVIDIA 將 OCI 分布式云與我們的全棧 AI 基礎(chǔ)設(shè)施整合,為 AI 提供大規(guī)模計(jì)算能力。借助 NVIDIA 全棧 AI 基礎(chǔ)設(shè)施,OCI Zettascale10 提供推進(jìn)前沿 AI 研究所需的計(jì)算架構(gòu),幫助各類組織從實(shí)驗(yàn)階段邁向工業(yè)化 AI?!?/p>
Oracle Acceleron RoCE 網(wǎng)絡(luò)在 OCI Zettascale10 上為 AI 提供擴(kuò)展性、可靠性和高效性
Oracle Acceleron RoCE 網(wǎng)絡(luò)架構(gòu)是客戶在云端構(gòu)建、訓(xùn)練和推理 AI 工作負(fù)載的重要?jiǎng)?chuàng)新,同時(shí)能夠充分發(fā)揮 OCI Zettascale10 的性能與能力。該架構(gòu)利用現(xiàn)代 GPU 網(wǎng)卡(NIC)內(nèi)置的交換能力,使網(wǎng)卡可同時(shí)連接到多個(gè)交換機(jī),每個(gè)交換機(jī)位于獨(dú)立隔離的網(wǎng)絡(luò)平面上。這種方法通過在某一平面出現(xiàn)問題時(shí)將流量切換到其他平面,大幅提升了網(wǎng)絡(luò)的整體擴(kuò)展性和可靠性,避免了昂貴的停滯和重啟。Oracle Acceleron RoCE 網(wǎng)絡(luò)的關(guān)鍵特性,有助于客戶應(yīng)對(duì)重要 AI 工作負(fù)載,包括:
廣泛、淺層且高彈性的網(wǎng)絡(luò)結(jié)構(gòu):通過將 GPU NIC 用作微型交換機(jī)并連接到多個(gè)物理與邏輯隔離的平面,幫助客戶以更低總成本更快部署更大規(guī)模的 AI 集群。這一設(shè)計(jì)提升了擴(kuò)展性,同時(shí)減少網(wǎng)絡(luò)層級(jí)、成本和功耗。
更高可靠性:通過消除跨平面的數(shù)據(jù)共享,幫助客戶維持 AI 作業(yè)的穩(wěn)定性。當(dāng)某個(gè)平面不穩(wěn)定或擁塞時(shí),流量會(huì)自動(dòng)切換,確保訓(xùn)練作業(yè)持續(xù)運(yùn)行,避免昂貴的檢查點(diǎn)重啟。
性能一致性:相比傳統(tǒng)的三層設(shè)計(jì),減少一個(gè)網(wǎng)絡(luò)層級(jí),為客戶提供更統(tǒng)一的 GPUGPU 延遲,提高大規(guī)模 AI 訓(xùn)練和推理的可預(yù)測(cè)性。
高能效光學(xué)方案:支持 Linear Pluggable Optics (LPO) 和 Linear Receiver Optics (LRO),在不犧牲 400G/800G 吞吐的情況下降低網(wǎng)絡(luò)和冷卻成本,讓客戶可將更多電力用于計(jì)算。
運(yùn)維靈活性:通過平面級(jí)維護(hù)和獨(dú)立的網(wǎng)絡(luò)操作系統(tǒng)更新,幫助客戶減少停機(jī)時(shí)間并加快功能部署速度。
OCI Zettascale10 集群預(yù)計(jì)將在 2026 年下半年交付,支持多達(dá) 80 萬 NVIDIA AI 基礎(chǔ)設(shè)施 GPU 平臺(tái)。