DeepSeek-V3 架構圖
DeepSeek-V3還引入了兩項創(chuàng)新
除了延續(xù)基礎架構保證強大性能外,DeepSeek-V3還引入了兩項創(chuàng)新:
這一創(chuàng)新不僅提高了訓練效率,還讓模型的生成速度提升了三倍,從20TPS大幅提高至60TPS,每秒能生成60個token。
成本被壓縮到1%
總體而言,在預訓練階段,DeepSeek-V3處理1萬億個詞元所需的H800 GPU時間為18萬小時,若采用配備2048塊H800 GPU的集群進行加速,則整個預訓練過程可在短短3.7天內完成。這一階段的總耗時不超過兩個月,累計消耗了266.4萬GPU小時。
此外,上下文長度的擴展額外耗費了11.9萬GPU小時,而后期的訓練工作(包括監(jiān)督微調和強化學習等)則消耗5000GPU小時。因此,DeepSeek-V3的總訓練時長達到了278.8萬GPU小時。
若以每GPU小時2美元的成本計算,該模型的整體訓練費用約為557.6萬美元。需要注意的是,這一費用僅涵蓋了正式訓練階段的開支,并未包括前期在模型架構設計、算法開發(fā)以及數(shù)據(jù)處理等方面的研究與消融實驗費用。然而,相較于通常訓練大型語言模型所需的數(shù)億美元成本,DeepSeek-V3的訓練成本顯得相對較低。例如,據(jù)估計,Llama-3.1的訓練成本超過了5億美元。
2
一經開源發(fā)布,引發(fā)熱烈關注
AI圈激烈討論,眾說紛紜
AI科學家Andrej Karpathy,作為OpenAI的初創(chuàng)成員之一,對DeepSeek-V3的超低訓練成本感到震驚,他指出:“在資源有限的情況下,這無疑是一項令人矚目的研究與工程壯舉?!盞arpathy認為,實現(xiàn)這種級別的能力原本預計需要接近16K GPU的集群,而現(xiàn)在DeepSeek-V3所提出的集群規(guī)模卻接近100K GPU。這是否預示著前沿大型語言模型(LLM)不再依賴于超大規(guī)模的GPU集群?
在AI領域激烈的競爭中,資源約束被視作一種積極的驅動力。領導英偉達具身AI團隊的高級研究科學家Jim Fan,曾師從李飛飛教授,他對此表示贊同:“資源限制實際上是一件好事。在競爭激烈的AI領域,生存的本能是推動我們取得突破的關鍵動力?!?/p>
此外,關于DeepSeek-V3采用H800 GPU實現(xiàn)低訓練成本的話題,也引發(fā)了網(wǎng)友對美國芯片出口管制的討論。數(shù)據(jù)科學家、Kaggle知名用戶Bojan Tunguz評論道:“對所有高端半導體實施的出口禁令,可能會以最糟糕的方式適得其反。這些禁令似乎促使中國研究人員變得更加聰明和節(jié)儉。這也似乎印證了我的猜想,即我們離掌握AI機器學習領域的最佳算法還有很長的路要走?!?/p>
12月27日,奧特曼在推特上突然發(fā)表言論,稱“創(chuàng)新和冒險的行為遠比復制已知的成功要艱難得多”。
鑒于發(fā)布時間和DeepSeek-V3的討論熱度,不少人解讀這是在陰陽DeepSeek。
全網(wǎng)熱烈實測中
盡管DeepSeek-V3的訓練成本相對較低,但它卻迅速崛起,成為了當前市場上性能最強的開源大型模型之一。為了驗證其AI性能,該公司進行了一系列基準測試,并將DeepSeek-V3與其他領先的開源模型,如Llama-3.1-405B和通義千問的Qwen 2.5-72B,進行了對比。結果顯示,DeepSeek-V3在多數(shù)基準測試中均展現(xiàn)出了優(yōu)于這些模型的表現(xiàn),甚至在某些測試中,它的表現(xiàn)還超過了閉源的GPT-4o模型。僅在以英語為主要考察內容的SimpleQA和FRAMES測試中,DeepSeek-V3的成績略低于OpenAI模型,分別為24.9分和73.3分,而OpenAI模型則分別獲得了38.2分和80.5分。
然而,DeepSeek-V3在以中文和數(shù)學為主要考察內容的基準測試中表現(xiàn)尤為突出,其得分高于所有同類大型模型。特別是在Math-500測試中,DeepSeek-V3以90.2分的高分遠超第二名Qwen的80分。
目前,能夠與DeepSeek-V3一較高下的模型可能僅有Anthropic的o1和Claude 3.5 Sonnet。據(jù)悉,在GPQA Diamond(博士級科學問題)基準測試中,o1以76%的分數(shù)領先,而DeepSeek則以59.1%的分數(shù)緊隨其后。此外,o1的完整版在多項基準測試中均擊敗了DeepSeek。同樣,Claude 3.5 Sonnet也在MMLU-Pro、IF-Eval、GPQA-Diamond、SWE Verified和Aider-Edit等測試中,以更高的分數(shù)超越了DeepSeek-V3。
寫在最后
在中國眾多致力于大模型創(chuàng)新的初創(chuàng)企業(yè)中,Deepseek展現(xiàn)了一條獨樹一幟的發(fā)展路徑。這家企業(yè)以“深度求索”為中文名,是由知名私募機構幻方量化孕育出的子公司。2023年4月,幻方宣布組建新團隊,集中優(yōu)勢資源,全力探索通用人工智能(AGI)的本質,并在短短一年多時間內取得了顯著進展?;梅阶猿闪⒅醣惚砻?,其長期將營業(yè)收入的大部分投入到人工智能領域,旨在構建頂尖的AI硬件基礎設施,開展大規(guī)模研究,以揭開人類尚未觸及的智慧面紗。
與那些獲得大型科技公司投資的AI初創(chuàng)企業(yè),如月之暗面、智譜AI、Minimax、百川智能等相比,DeepSeek并未直接依附于任何科技巨頭。然而,在算力儲備方面,DeepSeek卻毫不遜色于這些大廠。有云計算領域的專家指出,擁有1萬枚英偉達A100芯片是構建AI大模型的算力基準。當中國的云服務商因GPU芯片供應緊張而受限時,幻方卻早已預見性地布局了大模型賽道。據(jù)報道,除了商湯科技、百度、騰訊、字節(jié)跳動、阿里巴巴等科技巨擘外,幻方也掌握了超過1萬枚GPU。
幻方量化和Deepseek的創(chuàng)始人梁文鋒在接受媒體采訪時透露,幻方對算力的積累并非一蹴而就。早在2019年,幻方便已斥資2億元自主研發(fā)深度學習訓練平臺“螢火一號”,該平臺配備了1100塊GPU。至2021年,“螢火二號”的投資額更是飆升至10億元,搭載了大約1萬張英偉達A100顯卡。就在這一年后,OpenAI推出了ChatGPT的公開測試版,從而在全球范圍內掀起了一股新的AI熱潮。