一区二区亚洲精品国产精华液,精品精品国产欧美在线,又色又爽又黄的视频大片

不過，相較于新模型和新產(chǎn)品迭代，業(yè)界更關(guān)注的是DCFormer架構(gòu)在效率層面的大幅提升，彩云科技CEO袁行遠(yuǎn)介紹，彩云科技團(tuán)隊(duì)在基于DCFormer打造的模型DCPythia-6.9B上，實(shí)現(xiàn)了在預(yù)訓(xùn)練困惑度和下游任務(wù)評估上都優(yōu)于開源Pythia-12B。這意味著，DCFormer模型在性能上，實(shí)現(xiàn)了對Transformer模型1.7-2倍的性能提升，這是在大模型基礎(chǔ)技術(shù)層領(lǐng)域近年來少有的突破。

目前大模型訓(xùn)練的主要成本由三部分構(gòu)成，即訓(xùn)練成本、推理成本和儲(chǔ)存成本。其中，訓(xùn)練成本是其中的主要構(gòu)成，例如，GPT-3的單次訓(xùn)練成本據(jù)估算高達(dá)140萬美元，這些成本主要由兩部分構(gòu)成，GPU的使用和大量的電力消耗，電力消耗方面，GPT-3的訓(xùn)練耗電量高達(dá)1287兆瓦時(shí)。而據(jù)《華爾街見聞》對GPT-4的細(xì)節(jié)披露顯示，GPT-4總共包含了1.8萬億參數(shù)（GPT-3只有約1750億個(gè)參數(shù)），相對應(yīng)的，專家測算，Open AI在25000個(gè)A100 GPU上訓(xùn)練，單次訓(xùn)練成本則達(dá)到6300萬美元，即便是在當(dāng)下，利用8192個(gè)H100 GPU進(jìn)行訓(xùn)練，也需要2150萬美元。

“在Scaling Law失效，真正、徹底的人工智能實(shí)現(xiàn)之前，可能僅僅是能源消耗，我們的地球都無法支撐?！痹羞h(yuǎn)介紹，“優(yōu)化模型架構(gòu)，提升大模型的效率，從而有效地降低能耗，就成為必由之路。”

彩云科技的DCFormer架構(gòu)即是基于模型架構(gòu)優(yōu)化的思路而誕生。在今年舉辦的ICML(國際機(jī)器學(xué)習(xí)大會(huì))上，彩云科技團(tuán)隊(duì)正式向公眾介紹了DCFormer架構(gòu)，提出可動(dòng)態(tài)組合的多頭注意力（DCMHA），替換Transformer核心組件多頭注意力模塊（MHA），解除了MHA注意力頭的查找選擇回路和變換回路的固定綁定，讓它們可以根據(jù)輸入動(dòng)態(tài)組合，從根本上提升了模型的表達(dá)能力，實(shí)現(xiàn)在DCPythia-6.9B模型上，在預(yù)訓(xùn)練困惑度和下游任務(wù)評估上都優(yōu)于開源Pythia-12B模型的表現(xiàn)。

1.7-2倍的性能提升，意味著同樣的訓(xùn)練任務(wù)，在同等GPU的情況下，效率的同級別提升，之前如果預(yù)訓(xùn)練需要消耗100兆瓦時(shí)的耗電量，現(xiàn)在僅需要50兆瓦時(shí)，成本將大幅縮減。

與此同時(shí)，對于很多致力于開發(fā)大模型的中小型人工智能公司而言，模型的效率提升也給他們參與AI浪潮提供了全新的機(jī)遇。袁行遠(yuǎn)介紹，譬如Open AI做的是通用大模型，它可能有3萬張A100卡，但只有十分之一的算力集中在故事創(chuàng)作上，那就是3000張卡，如果我們能在模型結(jié)構(gòu)上具備優(yōu)勢，利用DCFormer架構(gòu)實(shí)現(xiàn)2倍的訓(xùn)練效率提升，那么只需要1500張卡就能實(shí)現(xiàn)與Open AI同樣的效果，如果模型架構(gòu)的效率優(yōu)勢達(dá)到4倍，那就只需要750張卡就可以實(shí)現(xiàn)。

這一點(diǎn)，似乎已經(jīng)在彩云科技自己的產(chǎn)品，彩云小夢V3.5上實(shí)現(xiàn)了印證。這款基于DCFormer架構(gòu)應(yīng)用的故事續(xù)寫、陪伴類型的人工智能產(chǎn)品，在訪問深度、交互長度上都實(shí)現(xiàn)了同類型產(chǎn)品的領(lǐng)先，平均150分鐘的交流時(shí)長，超過400+句的深度對話，遠(yuǎn)超當(dāng)前業(yè)內(nèi)平均20分鐘左右的交互時(shí)長。這背后，正是基于DCFormer架構(gòu)帶來的革新?！坝脩粼趯υ挸^400句后，彩云小夢依然能夠記得之前對話里的細(xì)節(jié)，甚至記得對話中各個(gè)NPC的愛好、習(xí)慣，超長記憶和一致的邏輯，使得彩云小夢成為真正的‘指尖伴侶’?！?/p>

“將DCFormer架構(gòu)的模型效率再次提升一倍，是我們接下來一年的目標(biāo)?！痹羞h(yuǎn)介紹，“只有模型效率和智能度提升，才能實(shí)現(xiàn)真正的AGI。”

分享到

xiesc

相關(guān)推薦

近期文章

熱門標(biāo)簽