2023年談到AI,最熱的話題是OpenAI帶來的ChatGPT。從GPT-3的1750億計(jì)算參數(shù),到谷歌的PaLM-1,到今年推出的PaLM-2參數(shù)達(dá)到5620億,再到GPT-4的幾萬億,后面會(huì)有更多。
再加上國內(nèi)大模型亦如雨后春筍,當(dāng)然已知的40多家,且都是行業(yè)內(nèi)頭部企業(yè),不管互聯(lián)網(wǎng)企業(yè)還是垂直應(yīng)用領(lǐng)域頭部公司全都磨刀霍霍要做大模型。雖然世界充滿了喧囂,但英偉達(dá)的世界卻是安靜而美好,這就是AI算力在大模型時(shí)代所處的位置。
大模型+AI應(yīng)用2.0對(duì)算力意味著什么?
?以ChatGPT為代表的大模型,我們稱為三超大戶——超聰明、超費(fèi)錢、超費(fèi)電。
ChatGPT有多聰明?GPT-4在美國做了各種專業(yè)測試,其表現(xiàn)與人類水平相當(dāng)。在各大考試包括GRE幾乎取得了滿分成績,并橫掃各種benchmark。OpenAI更稱ChatGPT為一項(xiàng)通用技術(shù)。一旦技術(shù)被冠上“通用”,就意味著更多行業(yè),更多應(yīng)用場景會(huì)與其產(chǎn)生連接,AI應(yīng)用發(fā)展進(jìn)入2.0時(shí)代——從小模型的1.0弱AI時(shí)代轉(zhuǎn)向大模型的強(qiáng)AI時(shí)代。
這對(duì)算力芯片公司來說,最直接的就是收獲巨量市場需求,這個(gè)需求可以從微軟投資OpenAI實(shí)際案例中看出算力有多費(fèi)錢——投資的100億美元,其中65億都用于購買AI算力硬件。
除了算力狂飆,還有能耗狂飆和成本狂飆。現(xiàn)在訓(xùn)練大模型,投入2.5億美元是服務(wù)器硬件的最低要求,如果做到GPT-5的規(guī)模訓(xùn)練,至少可能要3萬臺(tái)服務(wù)器,甚至5萬臺(tái)H100都不奇怪。如果訓(xùn)練都要用那么多計(jì)算板卡,那么進(jìn)入大模型的部署階段其對(duì)算力的需求只會(huì)更多。
ChatGPT為代表的大模型對(duì)算力帶來的狂飆,我們這里用數(shù)字證明。大家看一下這個(gè)框,ChatGPT當(dāng)日運(yùn)營算力的消耗可以占到2021年中國智能算力總規(guī)模的3%,這個(gè)ChatGPT不是GPT4,而是GPT3,可見大模型時(shí)代對(duì)于算力的需求非常巨大。
針對(duì)GPT3,假設(shè)每天有2.5億次咨詢量,每個(gè)問題平均30字,要花多少錢呢?首先是用到3萬多張英偉達(dá)的板卡,每天電費(fèi)是2.3萬美元,這個(gè)只是根據(jù)板卡的功耗計(jì)算出來的電費(fèi),還不算服務(wù)器級(jí)別,以及數(shù)據(jù)中心運(yùn)維、制冷整體耗電數(shù)字。
谷歌的訪問量公開數(shù)據(jù)是一天30億次,國內(nèi)的百度對(duì)外宣稱一天可以被訪問700億次,假設(shè)是700億次,大家可以在這個(gè)數(shù)字上持續(xù)乘上倍數(shù),數(shù)字非常驚人,這只是每天的電費(fèi),如果乘以365天……因此,大模型是有錢人的游戲。
AI大算力技術(shù)發(fā)展現(xiàn)狀與未來
AI大算力技術(shù)現(xiàn)在已經(jīng)發(fā)展到急需算力性能實(shí)現(xiàn)第二增長曲線的階段。AI技術(shù)離不開三大要素,第一數(shù)據(jù),第二算法,第三算力。數(shù)據(jù)越多,計(jì)算參數(shù)越多,算法越復(fù)雜,而底層算力卻面臨摩爾定律終結(jié),算力性能發(fā)展高度依賴工藝制程的演進(jìn),從40nm到28nm,再到22nm,往下16、14、17到現(xiàn)在的5nm,甚至英偉達(dá)說要做的2nm工藝。
當(dāng)摩爾定律走向終結(jié),這個(gè)巨大的剪刀差如何彌合?在今年5月份的2023年TOP60國產(chǎn)AI芯片廠商調(diào)研分析報(bào)告中提出了AI大算力第一和第二增長曲線,第一增長曲線耗盡了九牛二虎之力,啟用了5nm的工藝加上2.5D工藝封裝,才把AI大算力芯片的性能做到75瓦左右,輸出到400T算力。但相較存算一體架構(gòu),第一增長曲線的終點(diǎn)只是第二增長曲線起點(diǎn)的一半。億鑄可以做到28nm的傳統(tǒng)工藝,實(shí)現(xiàn)75瓦輸出將近1P的算力。
中國AI大算力芯片創(chuàng)業(yè)的第一波浪潮,大家走的是ASIC和DSA的計(jì)算路徑。第二代就是走英偉達(dá),即GPGPU的路徑。到2023年我們要嘗試換道發(fā)展,這里徐總強(qiáng)調(diào)三個(gè)技術(shù)彼此之間并非此消彼長的關(guān)系,某種程度上,在企業(yè)之間是的,但回歸到技術(shù)宏觀角度,這三個(gè)技術(shù)都是非常有價(jià)值的,因此億鑄科技的觀點(diǎn)是同一個(gè)世界,同一個(gè)夢想,不同的技術(shù)各有所長,如果能夠競合得當(dāng),可以相得益彰,共同為中國整個(gè)產(chǎn)業(yè)的AI智能化提供價(jià)值和動(dòng)能。
接下來介紹——存算一體+超異構(gòu),先來講超異構(gòu),現(xiàn)在做GPU的頭部企業(yè),一個(gè)是英偉達(dá),一個(gè)是AMD,英偉達(dá)說從GPU架構(gòu)出發(fā),走向“GPU+DPU的超異構(gòu)”,而AMD說“基于3D封裝用CPU+GPU異構(gòu)并行走向系統(tǒng)級(jí)創(chuàng)新”。
當(dāng)AI芯片技術(shù)從CPU做AI計(jì)算到GPU做AI計(jì)算,再發(fā)展到ASIC、GPGPU專用的AI加速器芯片產(chǎn)品,技術(shù)已經(jīng)發(fā)展到較大瓶頸的階段,以至于頭部公司的leader都思考不能單個(gè)維度來推動(dòng)發(fā)展,需要系統(tǒng)級(jí)創(chuàng)新尋求下一步發(fā)展的動(dòng)力。
再看存算一體,存算一體的第一性原理是什么呢?我們叫阿姆達(dá)爾定律,這個(gè)公式的變量有兩個(gè),第一加速器的規(guī)模,就是α值,還有一個(gè)就是加速比,在這兩個(gè)變量當(dāng)中,其中有一個(gè)很重要的維度就是訪存所占用的參數(shù)時(shí)間,這個(gè)公式點(diǎn)中的問題所在就是F值的訪存,傳統(tǒng)計(jì)算芯片的結(jié)構(gòu)存、算分開,當(dāng)你只需算幾個(gè)數(shù)據(jù)時(shí),存和算之間搬運(yùn)數(shù)據(jù)非常簡單。但當(dāng)你有成千上萬的數(shù)據(jù)在存和算之間不斷進(jìn)行搬運(yùn),訪問存儲(chǔ)占整個(gè)計(jì)算的比重就會(huì)越來越大,大到一定程度,整個(gè)計(jì)算最終加速結(jié)果不再跟加速器規(guī)模多少相關(guān),更多是在說整個(gè)能耗,芯片面積都在被訪存的過程消耗。
就是左邊是存,右邊是算,80%-90%的功耗都用來在兩者之間進(jìn)行大量的數(shù)據(jù)搬運(yùn),而不是計(jì)算。所以現(xiàn)在影響AI加速計(jì)算最大的問題就是存儲(chǔ)墻,以及由此帶來的能耗墻。顧名思義,存、算一體不需要存和算之間不斷地做數(shù)據(jù)搬運(yùn),那么這80%-90%的能耗就可以節(jié)省出來用于計(jì)算。
包括AMD、特斯拉以及三星都在公開場合談過下一代技術(shù)的儲(chǔ)備和演進(jìn)的方向就是往存算一體的技術(shù)架構(gòu)找新的發(fā)展動(dòng)能。因?yàn)榇嫠阋惑w的技術(shù)可以跟CMOS工藝兼容,又能快速實(shí)現(xiàn)量產(chǎn),突破AI算力困境。所以任何技術(shù)的價(jià)值都是在既定的歷史時(shí)空內(nèi)論定,而存算一體變成當(dāng)下非常熱門的AI加速計(jì)算新發(fā)展路徑。
億鑄科技存算一體超異構(gòu)芯片能夠做到更大的算力,前面講了1000T,常規(guī)的AI大算力芯片板卡是250T左右,最新的是400T,至少是它的三到四倍。更高的能效比,能夠做到8-10倍的能效比,兼顧軟件通用性。
關(guān)于存算一體超異構(gòu)的幾點(diǎn)思考
1、存算一體架構(gòu)天然非常適合AI并行計(jì)算,可以說就是為AI計(jì)算而生的計(jì)算架構(gòu)。
2、可落地性極強(qiáng),希望通過存算一體的架構(gòu)可以為產(chǎn)業(yè)界貢獻(xiàn)更具性價(jià)比、更高能效比和更大算力空間的發(fā)展技術(shù)。
3、億鑄科技作為一家AI大算力芯片的上游公司,對(duì)于當(dāng)前大模型時(shí)代的算力格局的競爭要素思考:
一是我們認(rèn)為強(qiáng)AI,就是大模型將在一定范圍內(nèi)替代AI,甚至催生新的AI應(yīng)用場景。
二是強(qiáng)AI將會(huì)以IAAS的產(chǎn)品形式賦能千行百業(yè),這就意味著你有極高的研發(fā)投入進(jìn)一步帶來通用智能寡頭的格局,或者是垂直行業(yè)通用智能寡頭的格局,這是和數(shù)據(jù)資源息息相關(guān)的。
三是AI大算力芯片競爭核心會(huì)逐漸從“軟件生態(tài)”轉(zhuǎn)向“能效比、算力密度、性價(jià)比、算力發(fā)展空間”,不是說軟件生態(tài)不重要,而是后者的權(quán)重會(huì)進(jìn)一步加重。
億鑄科技存算一體超異構(gòu)AI大算力芯片特點(diǎn)就是有效算力更大、放置參數(shù)更多、能效比更高、軟件兼容性好,發(fā)展天花板更高,我們目前只是基于28nm工藝就可以做到1P算力。
采用了CMOS傳統(tǒng)工藝,結(jié)合新型憶阻器技術(shù)、存算一體架構(gòu),用Chiplet技術(shù)以及3D封裝,希望為中國產(chǎn)業(yè)界貢獻(xiàn)一顆更高能效比、更大算力的存算一體超異構(gòu)AI大算力芯片。
(文章根據(jù)速記稿整理,未經(jīng)演講人確認(rèn))