風(fēng)口浪尖上的Hopper H100

作為吃瓜群眾,簡(jiǎn)單看看這個(gè)事兒的幾個(gè)影響:

1,影響跨國(guó)企業(yè)的商業(yè)信譽(yù)。

企業(yè)級(jí)市場(chǎng)、數(shù)據(jù)中心市場(chǎng)穩(wěn)定的供給非常重要,像這種說禁運(yùn)就馬上就斷貨的操作,實(shí)在其實(shí)有損企業(yè)的商業(yè)信譽(yù)。

有此先例,不免讓很多用戶擔(dān)心朝不保夕,修改技術(shù)路線。所幸,后來有了延期的操作,不然會(huì)有更深遠(yuǎn)影響。

2,禁運(yùn)對(duì)數(shù)據(jù)中心技術(shù)架構(gòu)影響。

英偉達(dá)的顯卡大概兩三年更新一代,每一代的性能提升都非常大,性能大致上可以參考CUDA個(gè)數(shù),比如從P100到V100,CUDA增長(zhǎng)了42%,從V100到A100提升了35%。

而且,伴隨著工藝和架構(gòu)的進(jìn)化,帶來的性能提升非常大。如果不用新卡,同等性能之下,運(yùn)營(yíng)成本負(fù)擔(dān)也會(huì)大大提升,特別是電費(fèi),在雙碳背景下,此舉會(huì)帶來很大額外壓力。

3,禁運(yùn)對(duì)技術(shù)發(fā)展的影響。

目前主要是對(duì)HPC高性能計(jì)算和機(jī)器學(xué)習(xí)的影響。

HPC高性能關(guān)系到前沿基礎(chǔ)科學(xué)研究領(lǐng)域的發(fā)展步伐,這些領(lǐng)域包括分子動(dòng)力學(xué)模擬、生物制藥、材料電子結(jié)構(gòu)計(jì)算、材料模擬、生命科學(xué)等,人們?cè)街匾暬A(chǔ)科學(xué),就越應(yīng)該關(guān)注顯卡。

此前超算領(lǐng)域已經(jīng)有過一些關(guān)于CPU禁運(yùn)的先例,所以大家對(duì)禁運(yùn)應(yīng)該不陌生。

機(jī)器學(xué)習(xí)領(lǐng)域,如今常用的各種人工智能服務(wù),包括刷臉,語音識(shí)別,背后多少都靠高性能顯卡來訓(xùn)練模型,禁運(yùn)會(huì)增加這些服務(wù)提供商的成本,但更重要的是,可能影響一個(gè)國(guó)家在機(jī)器學(xué)習(xí)方面的探索。

眼看著如今機(jī)器學(xué)習(xí)模型越來越大,有些模型參數(shù)多的都達(dá)到了Trillion(萬億)級(jí)別,比如GPT-3和Switch Transformer這種語言模型頂流,這些模型能做一些非常不可思議的事情,發(fā)展前景令人向往。

機(jī)器學(xué)習(xí)的核心思想就是大力出奇跡,非常依賴高性能加速器來訓(xùn)練模型,沒有顯卡就少了很多可能。

比如,最新的H100顯卡,搭配上NVLink Switch System能連接256塊H100構(gòu)建集群,能將大型語言模型提升30倍。如果沒有這些,機(jī)器學(xué)習(xí)的發(fā)展步伐無異于中了減速Buff。

4,對(duì)技術(shù)服務(wù)商的影響。

英偉達(dá)發(fā)布H100的新聞稿里提到,AWS、Google Cloud、微軟Azure、Oracle Cloud、阿里云、百度AI云和騰訊云,都會(huì)提供基于H100的實(shí)例。此外,戴爾、HPE、思科、Atos、聯(lián)想等OEM廠商還將提供一系列采用H100的服務(wù)器產(chǎn)品。

一直以來,美國(guó)都是限制一些國(guó)家將高端技術(shù)用于特定領(lǐng)域,如果按照這一原則,一些國(guó)內(nèi)的公有云服務(wù)商應(yīng)該還是能拿到H100,除非全面禁止向960萬平方公里的土地上使用這些產(chǎn)品技術(shù)。

技術(shù)服務(wù)商,特別是國(guó)內(nèi)公有云服務(wù)商可以考慮借鑒AWS的做法,自己研發(fā)類似AWS Trainium的專用的機(jī)器學(xué)習(xí)訓(xùn)練芯片,因?yàn)橹挥性品?wù)商具備將芯片做起來、并用起來的規(guī)模和技術(shù)優(yōu)勢(shì)。

而且,對(duì)云服務(wù)商來說,此舉既可以豐富產(chǎn)品類型,也能收獲更強(qiáng)的供應(yīng),提高技術(shù)路線的把握能力。對(duì)用戶來說,云能屏蔽下層硬件差異,降低使用中的障礙。如果云廠商要做替代,建議盡可能拉上國(guó)產(chǎn)GPU廠商。

5,國(guó)產(chǎn)利好。

理論上肯定是利好國(guó)產(chǎn)GPU市場(chǎng)的,但國(guó)產(chǎn)GPU挑戰(zhàn)特別多,盡量拉上云廠商路才好走。

第一個(gè),是技術(shù)本身的差距,硬件積累和軟件生態(tài)的積累首當(dāng)其沖,其難度大致上可以參考國(guó)產(chǎn)CPU市場(chǎng),但好在技術(shù)上的難度會(huì)低很多。

第二個(gè),如何保證穩(wěn)定的供給?即使將來具備了英偉達(dá)同等硬件性能和軟件生態(tài),這種先進(jìn)技術(shù)還能否不受約束地隨便用,至少可見的未來,芯片領(lǐng)域還需要臺(tái)積電的供應(yīng),同樣可能受制約。

分享到

zhupb

相關(guān)推薦