不過,相較于新模型和新產(chǎn)品迭代,業(yè)界更關(guān)注的是DCFormer架構(gòu)在效率層面的大幅提升,彩云科技CEO袁行遠(yuǎn)介紹,彩云科技團(tuán)隊在基于DCFormer打造的模型DCPythia-6.9B上,實現(xiàn)了在預(yù)訓(xùn)練困惑度和下游任務(wù)評估上都優(yōu)于開源Pythia-12B。這意味著,DCFormer模型在性能上,實現(xiàn)了對Transformer模型1.7-2倍的性能提升,這是在大模型基礎(chǔ)技術(shù)層領(lǐng)域近年來少有的突破。
目前大模型訓(xùn)練的主要成本由三部分構(gòu)成,即訓(xùn)練成本、推理成本和儲存成本。其中,訓(xùn)練成本是其中的主要構(gòu)成,例如,GPT-3的單次訓(xùn)練成本據(jù)估算高達(dá)140萬美元,這些成本主要由兩部分構(gòu)成,GPU的使用和大量的電力消耗,電力消耗方面,GPT-3的訓(xùn)練耗電量高達(dá)1287兆瓦時。而據(jù)《華爾街見聞》對GPT-4的細(xì)節(jié)披露顯示,GPT-4總共包含了1.8萬億參數(shù)(GPT-3只有約1750億個參數(shù)),相對應(yīng)的,專家測算,Open AI在25000個A100 GPU上訓(xùn)練,單次訓(xùn)練成本則達(dá)到6300萬美元,即便是在當(dāng)下,利用8192個H100 GPU進(jìn)行訓(xùn)練,也需要2150萬美元。
“在Scaling Law失效,真正、徹底的人工智能實現(xiàn)之前,可能僅僅是能源消耗,我們的地球都無法支撐?!痹羞h(yuǎn)介紹,“優(yōu)化模型架構(gòu),提升大模型的效率,從而有效地降低能耗,就成為必由之路。”
彩云科技的DCFormer架構(gòu)即是基于模型架構(gòu)優(yōu)化的思路而誕生。在今年舉辦的ICML(國際機(jī)器學(xué)習(xí)大會)上,彩云科技團(tuán)隊正式向公眾介紹了DCFormer架構(gòu),提出可動態(tài)組合的多頭注意力(DCMHA),替換Transformer核心組件多頭注意力模塊(MHA),解除了MHA注意力頭的查找選擇回路和變換回路的固定綁定,讓它們可以根據(jù)輸入動態(tài)組合,從根本上提升了模型的表達(dá)能力,實現(xiàn)在DCPythia-6.9B模型上,在預(yù)訓(xùn)練困惑度和下游任務(wù)評估上都優(yōu)于開源Pythia-12B模型的表現(xiàn)。
1.7-2倍的性能提升,意味著同樣的訓(xùn)練任務(wù),在同等GPU的情況下,效率的同級別提升,之前如果預(yù)訓(xùn)練需要消耗100兆瓦時的耗電量,現(xiàn)在僅需要50兆瓦時,成本將大幅縮減。
與此同時,對于很多致力于開發(fā)大模型的中小型人工智能公司而言,模型的效率提升也給他們參與AI浪潮提供了全新的機(jī)遇。袁行遠(yuǎn)介紹,譬如Open AI做的是通用大模型,它可能有3萬張A100卡,但只有十分之一的算力集中在故事創(chuàng)作上,那就是3000張卡,如果我們能在模型結(jié)構(gòu)上具備優(yōu)勢,利用DCFormer架構(gòu)實現(xiàn)2倍的訓(xùn)練效率提升,那么只需要1500張卡就能實現(xiàn)與Open AI同樣的效果,如果模型架構(gòu)的效率優(yōu)勢達(dá)到4倍,那就只需要750張卡就可以實現(xiàn)。
這一點(diǎn),似乎已經(jīng)在彩云科技自己的產(chǎn)品,彩云小夢V3.5上實現(xiàn)了印證。這款基于DCFormer架構(gòu)應(yīng)用的故事續(xù)寫、陪伴類型的人工智能產(chǎn)品,在訪問深度、交互長度上都實現(xiàn)了同類型產(chǎn)品的領(lǐng)先,平均150分鐘的交流時長,超過400+句的深度對話,遠(yuǎn)超當(dāng)前業(yè)內(nèi)平均20分鐘左右的交互時長。這背后,正是基于DCFormer架構(gòu)帶來的革新?!坝脩粼趯υ挸^400句后,彩云小夢依然能夠記得之前對話里的細(xì)節(jié),甚至記得對話中各個NPC的愛好、習(xí)慣,超長記憶和一致的邏輯,使得彩云小夢成為真正的‘指尖伴侶’?!?/p>
“將DCFormer架構(gòu)的模型效率再次提升一倍,是我們接下來一年的目標(biāo)?!痹羞h(yuǎn)介紹,“只有模型效率和智能度提升,才能實現(xiàn)真正的AGI。”