由于目前大型語言模型的運行主要依賴大量的訓練計算資源,這種昂貴的成本模式,使得開發(fā)公司尋求替代方案。Hugging Face的研究顯示,通過測試階段計算擴展(Test-Time Compute Scaling),小型模型在推理過程中給予足夠的計算時間,能針對復雜問題進行多次嘗試或修正,效能不僅提升,甚至可在數學推理等特定任務中超越大型模型。這項成果挑戰(zhàn)了過去以模型規(guī)模作為效能提升主要依據的認知,展現了小型模型在資源有效利用下的潛力。

測試階段計算擴展成為許多研究機構關注的技術,其中DeepMind的研究顯示,借助動態(tài)分配測試階段計算資源,可以讓模型在解決復雜問題時更有效率。DeepMind研究人員提出了使用驗證搜索解答空間的策略,驗證器能對模型的中間推理解答給出評分,并引導搜索過程朝正確方向推進。DeepMind的實驗證實,測試階段計算策略能讓小型模型在部分復雜任務中超越其基礎效能。

而Hugging Face的研究更聚焦于開放模型與資源的應用,并提出多樣性驗證樹搜索(Diverse Verifier Tree Search,DVTS)這種改進驗證器搜索方法的技術。DVTS有效解決了搜索過程中的多樣性不足問題,特別是在高計算資源配置下,其生成的解答在準確性和多樣性上表現更佳。通過這些測試階段計算擴展技術,Hugging Face展示小型模型在數學推理等特定任務中,足以挑戰(zhàn)甚至超越大型模型,顛覆過去依賴模型規(guī)模決定效能的傳統(tǒng)觀點。

簡單來說,DeepMind的研究主要說明,通過動態(tài)分配測試階段的計算資源,小型模型可以在多一點計算時間下,提升效能并表現得更好。Hugging Face的研究則進一步延伸,提出在某些特定任務中,給小型模型足夠的計算時間,不僅能提升效能,甚至可以超越參數數量更大的模型。

Hugging Face的DVTS針對搜索策略中的多樣性問題進行優(yōu)化,借助分離多個搜索樹,提升生成答案的多樣性并避免單一路徑過度主導搜索過程的現象。在數學基準測試中,小型模型如參數數量僅為10億的Llama模型,在應用DVTS策略后,解題表現不僅超越了自身基礎能力,甚至在某些情境中超越了參數數量高達70億的大型模型。

不過目前這些技術的發(fā)展仍受限制,因為驗證器的能力目前局限于數學和代碼等可驗證領域,要將這些技術應用于需要主觀判斷,或是難以量化的任務,仍需要更多后續(xù)研究。不過從務實角度來看,測試階段集散擴展的成功,對模型效能提升提供了更具成本效益的方法,讓企業(yè)能以更少的資源部署更高效的語言模型,特別是在計算能力受限的環(huán)境下,如邊緣計算或嵌入式系統(tǒng)等。

分享到

崔歡歡

相關推薦