*表格中,其它模型的評測指標(biāo)來自官方評測結(jié)果,官方評測結(jié)果中不包含部分來自混元內(nèi)部評測平臺

據(jù)介紹,通過長短思維鏈融合,騰訊混元Turbo S 在保持文科類問題快思考體驗的同時,基于自研混元 T1 慢思考模型合成的長思維鏈數(shù)據(jù),顯著改進(jìn)了理科推理能力,實現(xiàn)模型整體效果提升。

架構(gòu)方面,通過創(chuàng)新性地采用了Hybrid-Mamba-Transformer 融合模式,混元Turbo S有效降低了傳統(tǒng)Transformer結(jié)構(gòu)的計算復(fù)雜度,減少了KV-Cache緩存占用,實現(xiàn)訓(xùn)練和推理成本的下降。新的融合模式突破了傳統(tǒng)純 Transformer 結(jié)構(gòu)大模型面臨的長文訓(xùn)練和推理成本高的難題,一方面發(fā)揮了Mamba 高效處理長序列的能力,也保留 Transformer 擅于捕捉復(fù)雜上下文的優(yōu)勢,構(gòu)建了顯存與計算效率雙優(yōu)的混合架構(gòu),這是工業(yè)界首次成功將Mamba架構(gòu)無損地應(yīng)用在超大型MoE模型上。

作為旗艦?zāi)P?,Turbo S未來將成為騰訊混元系列衍生模型的核心基座,為推理、長文、代碼等衍生模型提供基礎(chǔ)能力?;赥urbo S,通過引入長思維鏈、檢索增強(qiáng)和強(qiáng)化學(xué)習(xí)等技術(shù),騰訊自研了推理模型 T1,該模型已在騰訊元寶上線,用戶可以選擇Deepseek R1 或騰訊混元T1模型進(jìn)行回答。騰訊混元表示,正式版的騰訊混元T1模型API也將很快上線,對外提供接入服務(wù)。

開發(fā)者和企業(yè)用戶已經(jīng)可以在騰訊云上通過API調(diào)用騰訊混元Turbo S,即日起一周內(nèi)免費(fèi)試用。定價上,Turbo S 輸入價格為0.8元/百萬tokens,輸出價格為2元/百萬tokens,相比前代混元Turbo模型價格下降數(shù)倍。

騰訊混元Turbo S模型免費(fèi)試用申請:
https://cloud.tencent.com/apply/p/i2zophus2x8

分享到

nina

相關(guān)推薦