中文字幕一线产区和二线,婷婷我也去俺也去狠狠爱

Skywork o1是由昆侖萬(wàn)維集團(tuán)發(fā)布的具有慢思考推理能力的系列模型。這是國(guó)內(nèi)第一款中文邏輯推理能力的o1模型。

不同于現(xiàn)有的復(fù)現(xiàn)OpenAI o1模型的工作，Skywork o1不僅在模型輸出上內(nèi)生了思考、計(jì)劃、反思等能力，同時(shí)，該開源模型在標(biāo)準(zhǔn)評(píng)測(cè)集上，對(duì)比普通模型推理能力大幅上升，真正讓模型擁有了思考和反思帶來的推理能力的提升。團(tuán)隊(duì)復(fù)現(xiàn)o1的技術(shù)路線，使得初始推理能力較差的基座模型在基準(zhǔn)測(cè)試集上成為生態(tài)位SOTA。

昆侖萬(wàn)維的大模型之路

昆侖萬(wàn)維：將繼續(xù)踐行“All in AGI 與 AIGC” 縱深推進(jìn)人工智能在游戲等多領(lǐng)域應(yīng)用

昆侖萬(wàn)維致力于實(shí)現(xiàn)通用人工智能。憑借超前的戰(zhàn)略眼光，公司現(xiàn)已完成“算力基礎(chǔ)設(shè)施—大模型算法—AI應(yīng)用”全產(chǎn)業(yè)鏈布局，位列國(guó)內(nèi)人工智能企業(yè)第一梯隊(duì)。目前，公司主要業(yè)務(wù)涵蓋AGI與AIGC業(yè)務(wù)，海外信息分發(fā)與元宇宙業(yè)務(wù)，以及投資業(yè)務(wù)。

2020年開始，昆侖萬(wàn)維就關(guān)注大模型和AIGC領(lǐng)域，目前已成功構(gòu)建了包括AI大模型、AI搜索、AI音樂、AI視頻、AI社交、AI游戲等在內(nèi)的多元AI業(yè)務(wù)矩陣，部分業(yè)務(wù)已實(shí)現(xiàn)商業(yè)化落地，為公司開啟第二增長(zhǎng)曲線。

2023年4月，公司發(fā)布自主研發(fā)的“天工1.0”大模型。時(shí)至同年9月，在權(quán)威推理榜單Benchmark GSM8K測(cè)試中，天工以80%的正確率顯著領(lǐng)先于GPT-3.5的57.1%和LLaMA2-70B的56.8%，推理能力已達(dá)到全球領(lǐng)先水平；2024年2月，公司天工大模型迎來2.0版本，相較此前版本，其應(yīng)對(duì)復(fù)雜任務(wù)能力更強(qiáng)、模型響應(yīng)速度更快、訓(xùn)練及推理效率更高、可擴(kuò)展性更強(qiáng)。

昆侖萬(wàn)維在推出天工大模型后，不斷對(duì)其進(jìn)行迭代升級(jí)。從天工1.0到天工3.0，再到最新的天工大模型4.0 4o版（Skywork 4o），昆侖萬(wàn)維在研發(fā)上的投入持續(xù)增加，致力于提升大模型的性能和智能水平。直至今日昆侖萬(wàn)維「天工大模型4.0」o1版（Skywork o1）正式啟動(dòng)邀請(qǐng)測(cè)試

Skywork o1

此次發(fā)布的Skywork o1包括三款模型，既有回饋開源社區(qū)的開放版本，也有能力更強(qiáng)的專用版本：

Skywork o1 Open：一款基于Llama 3.1 8B的開源模型，該模型在同生態(tài)位開源模型中評(píng)測(cè)指標(biāo)大幅提升達(dá)到SOTA水平，并解鎖了許多輕量級(jí)模型無法解決的復(fù)雜數(shù)學(xué)任務(wù)。該模型的發(fā)布也將幫助加速國(guó)內(nèi)開源社區(qū)復(fù)現(xiàn)o1的進(jìn)程。Skywork o1 Lite：該模型具備完整的思考能力，具有更好的中文支持和更快的推理和思考速度。在數(shù)學(xué)、中文邏輯和推理類問題上表現(xiàn)突出。Skywork o1 Preview：這款模型是本次完整版的推理模型，搭配自研的線上推理算法，對(duì)比Skywork o1 Lite有著更多樣和“深度”的思考過程，更完善和更高質(zhì)量的推理。

強(qiáng)推理以及自我反思的能力

推理反思能力訓(xùn)練：通過自研的多智能體體系構(gòu)造高質(zhì)量的分步思考，反思和驗(yàn)證數(shù)據(jù)。通過高質(zhì)量的、多樣性的長(zhǎng)思考數(shù)據(jù)對(duì)基座模型進(jìn)行繼續(xù)預(yù)訓(xùn)練和監(jiān)督微調(diào)。

推理能力強(qiáng)化學(xué)習(xí)：團(tuán)隊(duì)研發(fā)了最新的適配分步推理強(qiáng)化的Skywork o1 Process Reward Model（PRM）。實(shí)驗(yàn)證明Skywork-PRM可有效的捕捉到復(fù)雜推理任務(wù)中間步驟和思考步驟對(duì)最終答案的影響。結(jié)合自研分步推理強(qiáng)化算法進(jìn)一步加強(qiáng)模型推理和思考能力。

推理planning：基于天工自研的Q*線上推理算法配合模型在線思考，并尋找最佳推理路徑。這也是全球首次將Q*算法實(shí)現(xiàn)和公開。Q*算法落地也大大提升了模型線上推理能力。

“天工大模型4.0”o1版能力測(cè)試

相較于此前（長(zhǎng)文本任務(wù)）大模型，無論是常識(shí)推理問題、邏輯推理問題、數(shù)學(xué)推理問題、倫理決策問題、還是“弱智”（類似腦筋急轉(zhuǎn)彎）邏輯陷阱問題等，Skywork o1都處理的游刃有余。整體來說，Skywork o1 Lite和Skywork o1 Preview線上版本在復(fù)雜問題分析、思考反思過程、輸出答案質(zhì)量上均有大幅提升。

首先，我們拿一道「2024年全國(guó)碩士研究生入學(xué)統(tǒng)一考試數(shù)學(xué)(一)試題」考考它（如下圖所示），測(cè)試一下它的“智力水平”。

面對(duì)難度不小的最新考研數(shù)學(xué)題，Skywork o1 Preview盡管花費(fèi)了一些時(shí)間，但還是一步步推理出了正確結(jié)果。

那么，之前大模型經(jīng)常翻車的比大小問題，Skywork o1現(xiàn)在的回答水平如何了？

從它的思考過程可以看出，Skywork o1的模型思考和規(guī)劃能力大幅提升。這個(gè)解題邏輯非常像人類的思考方法了，“如果整數(shù)部分相同，那么就要開始比較小數(shù)部分了”。通過嚴(yán)謹(jǐn)?shù)耐评磉^程，準(zhǔn)確得出8.8大于8.11，且多給出了一步差值計(jì)算。

此外，模型自我反思能力和自我驗(yàn)證能力也都有長(zhǎng)足進(jìn)步。Skywork o1可以準(zhǔn)確識(shí)別出“nǐ hǎo hěn gāo xìng rèn shí nǐ”，還可以給出后續(xù)對(duì)話建議。

盡管我們讓它回答存在中文讀音“陷阱”的問題——“請(qǐng)將qíng rén yǎn lǐ chū xī shī轉(zhuǎn)換為中文”，它也沒有被我們繞進(jìn)去。充分展示了中文邏輯問題思考中的反思能力，它主動(dòng)發(fā)現(xiàn)了“西詩(shī)”是不對(duì)的說法，而是“西施”。

同樣的，對(duì)于之前的大模型來說，“算24點(diǎn)”的游戲很容易把模型搞崩潰了，但是對(duì)于Skywork o1來說，可謂是小菜一碟。它不僅給出了正確答案，重點(diǎn)是它在過程中進(jìn)行了「自我驗(yàn)證」。它在計(jì)算過后，又檢查了一遍，確認(rèn)過程和答案全部符合命題要求，才給出最終答案。

昆侖萬(wàn)維的大模型之路道阻且長(zhǎng)

昆侖萬(wàn)維大模型產(chǎn)品不斷更新迭代的背后業(yè)績(jī)并不樂觀

高額研發(fā)投入：昆侖萬(wàn)維為保持競(jìng)爭(zhēng)優(yōu)勢(shì)，在AI技術(shù)上進(jìn)行了大量的研發(fā)投入。例如，2024年前三季度，公司的研發(fā)費(fèi)用提升至11.44億元，同比大幅增長(zhǎng)84.47%。然而，持續(xù)的高投入并未立刻帶來預(yù)期的收益。

凈虧損持續(xù)擴(kuò)大：盡管營(yíng)業(yè)收入有所增長(zhǎng)，但昆侖萬(wàn)維的凈虧損卻在持續(xù)擴(kuò)大。2024年前三季度，公司凈虧損達(dá)到6.27億元，第三季度凈虧損為2.37億元，同比大幅下降695.9%。

同時(shí)，人事層面發(fā)生變動(dòng)，AI界知名科學(xué)家離職?！癆ll in AGI與AIGC”的戰(zhàn)略下，研發(fā)、部署和維護(hù)需要巨大的資金投入，目前來看，昆侖萬(wàn)維在AI應(yīng)用層面沿襲了公司此前一貫“追熱點(diǎn)”的傳統(tǒng)，從搜索到智能助手，從游戲到音樂、短劇、社交，試圖多點(diǎn)開花，但落地效果仍有待后續(xù)觀察。

面臨的挑戰(zhàn)與機(jī)遇

市場(chǎng)競(jìng)爭(zhēng)加劇：隨著AI技術(shù)的不斷發(fā)展，越來越多的企業(yè)開始涉足大模型和AIGC領(lǐng)域。這使得昆侖萬(wàn)維面臨著更加激烈的市場(chǎng)競(jìng)爭(zhēng)。為了保持競(jìng)爭(zhēng)優(yōu)勢(shì)，昆侖萬(wàn)維需要不斷創(chuàng)新和升級(jí)其產(chǎn)品和技術(shù)。

商業(yè)化落地挑戰(zhàn)：盡管昆侖萬(wàn)維在大模型和AIGC領(lǐng)域取得了顯著成果，但如何將這些技術(shù)轉(zhuǎn)化為實(shí)際的商業(yè)價(jià)值仍然是一個(gè)挑戰(zhàn)。昆侖萬(wàn)維需要不斷探索新的商業(yè)模式和應(yīng)用場(chǎng)景，以實(shí)現(xiàn)技術(shù)的商業(yè)化落地。

人才和技術(shù)儲(chǔ)備：為了保持在大模型和AIGC領(lǐng)域的領(lǐng)先地位，昆侖萬(wàn)維需要不斷吸引和培養(yǎng)高素質(zhì)的人才，并加強(qiáng)技術(shù)儲(chǔ)備和研發(fā)能力。同時(shí)，還需要與業(yè)界保持緊密的合作關(guān)系，共同推動(dòng)AI技術(shù)的發(fā)展和應(yīng)用。

結(jié)語(yǔ)

昆侖萬(wàn)維的“天工大模型4.0”o1版的推出是國(guó)產(chǎn)AI大模型在對(duì)標(biāo)OpenAI過程中的重要里程碑。它不僅展示了昆侖萬(wàn)維在技術(shù)創(chuàng)新和生態(tài)建設(shè)方面的實(shí)力，也為未來的商業(yè)化應(yīng)用和市場(chǎng)拓展奠定了堅(jiān)實(shí)基礎(chǔ)。然而，面對(duì)業(yè)績(jī)壓力和市場(chǎng)競(jìng)爭(zhēng)的挑戰(zhàn)，昆侖萬(wàn)維需要持續(xù)進(jìn)行技術(shù)創(chuàng)新和迭代升級(jí)，以保持其在AIGC領(lǐng)域的領(lǐng)先地位。（文/宋雨涵）

分享到

OpenAI 大模型昆侖萬(wàn)維

lixiangjing

算力豹主編

lixiangjing

相關(guān)推薦

近期文章

熱門標(biāo)簽