亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理 陳曉建在亞馬遜云科技中國峰會上表示,“現(xiàn)如今,創(chuàng)新至關重要,而云技術能更快、更高效地幫助企業(yè)創(chuàng)新亞馬遜云科技廣泛和深入的服務可以讓客戶擺脫基礎架構的束縛,專注于創(chuàng)新。”
事實上,亞馬遜云科技上的算力資源非常豐富多樣,在Amazon Nitro系統(tǒng)的幫助下,亞馬遜云科技開發(fā)了非常多的EC2實例類型,而且,在實例性能和整體安全性上都有了質(zhì)的提升。
為了降低算力資源的成本,亞馬遜云科技有包括Graviton系列ARM處理器芯片,還有用于機器學習訓練的Trainium和用于機器學習推理的Inferentia,其中,自研的機器學習芯片都可以作為GPU的替代品。
在HuggingFace BERT模型訓練時,基于Trainium的Trn1實例和通用的GPU實例對比,在訓練的吞吐率上面,單節(jié)點的吞吐率可以提升1.2倍,而多節(jié)點集群的吞吐率可以提升1.5倍,從成本考慮,單節(jié)點成本可以降低1.8倍,集群的成本更是降低了2.3倍。
增強型Trn1n實例的網(wǎng)絡帶寬躍升至1.6Tbps,可將萬余個Trainium芯片構建在一個超大規(guī)模集群上,支持對超大模型進行并行訓練。增強型Trn1n實例可以用來訓練參數(shù)規(guī)模越來越大的大模型。
基于第一代Inferentia的Inf1實例,與基于通用GPU的EC2實例相比,帶來了70%成本的降低?;贗nferentia2的實例在吞吐和延遲方面均有大幅優(yōu)化,甚至可以用來大規(guī)模部署復雜的模型,例如大型語言模型和Diffusion類模型。
Inferentia在設計的時候就考慮到了吞吐率和延遲的優(yōu)化,在推理BERT模型時,In2實例的吞吐高出三倍,延遲降低了8.1倍,而成本只是通用GPU實例的1/4。在推理Stable Diffusion 2.1時,Inf2實例可實現(xiàn)50%的成本節(jié)約。
除了自研芯片,亞馬遜云科技上還提供了第三方的訓練和推理芯片。
比如,EC2 DL1實例是基于英特爾Habana Labs的Gaudi加速器,Gaudi既能用于訓練,也能用于推理,采用Gaudi加速器的EC2 DL1,其性價比相較于用GPU的EC2實例可提高最高40%。
如果用戶還是想用GPU來做訓練,那么也可以選擇亞馬遜云科技的EC2 P4系列實例,它采用的是英偉達的A100 GPU,如果想要做更大規(guī)模的訓練,還可以將EC2 P4部署在 EC2 UltraCluster 的超大規(guī)模集群中。
至于最新的H100顯卡,也可以關注亞馬遜云科技的EC2 P5實例,目前,或許是H100的數(shù)量有限,亞馬遜云科技的EC2 P5實例也需要額外填表申請才能使用,開放使用也是時間問題。
正如陳曉建所言,“面對算力的需求井噴所帶來挑戰(zhàn),我們通過自研芯片提供更好的性價比,通過各種豐富的計算、網(wǎng)絡、存儲等各種產(chǎn)品的組合應對突發(fā)的算力需求,通過Serverless有效降低運維的復雜性,從而簡化算力的使用,全面滿足用戶的多樣化的算力需求?!?/p>
亞馬遜云科技非常務實地提供多種算力服務。
我們還注意到,Amazon EC2 G4ad 實例也用了AMD的顯卡,不過G4 實例主要是做推理和圖形加速的。前不久亞馬遜云科技負責EC2的Dave Brown出現(xiàn)了AMD發(fā)布會上,未來是否會推出基于MI300的EC2實例,也未可知。