最近中文字幕mv在线视频www,久久爱99,久色网

該統(tǒng)一智能體系統(tǒng)的核心亮點(diǎn)在于，首次實(shí)現(xiàn)了三大AI技術(shù)的深度融合。它將Operator所具備的與網(wǎng)站交互的能力、DeepResearch擅長(zhǎng)整合信息的技巧，以及ChatGPT在智能對(duì)話方面的優(yōu)勢(shì)，完美地整合在一起。

文字編輯｜宋雨涵

AI具備類人電腦操作能力

自主為你工作

如今，ChatGPT可以直接使用計(jì)算機(jī)，全程自主為你工作。從智能瀏覽網(wǎng)頁(yè)、篩選結(jié)果，在需要時(shí)提醒安全登錄、運(yùn)行代碼、進(jìn)行分析，還能直出PPT和Excel匯總發(fā)現(xiàn)結(jié)果。

一項(xiàng)看似繁雜的任務(wù)擺在了眼前：為朋友精心策劃一場(chǎng)婚禮。這要求AI不僅要依據(jù)著裝規(guī)范和天氣狀況，推薦合適的禮服，還得預(yù)訂酒店，并準(zhǔn)備好貼心的禮物。

接到這項(xiàng)指令后，ChatGPT agent沒(méi)有絲毫等待，即刻投入行動(dòng)。它首先仔細(xì)確認(rèn)了婚禮日期等關(guān)鍵信息，隨后自主打開(kāi)瀏覽器，有條不紊地一步步操作，還將自己的“思考路徑”清晰明了地呈現(xiàn)給人類。整個(gè)過(guò)程，就如同一位訓(xùn)練有素、專業(yè)高效的數(shù)字助理在盡職工作。

更令人驚嘆的場(chǎng)景出現(xiàn)了。在執(zhí)行婚禮策劃任務(wù)的過(guò)程中，研究員突然給出了一個(gè)全新的指令：“幫我找一雙9.5碼的黑色正裝鞋”。模型幾乎沒(méi)有片刻遲疑，迅速暫停了正在進(jìn)行的婚禮策劃任務(wù)，轉(zhuǎn)而優(yōu)先處理這個(gè)新需求。待新需求處理完畢后，又無(wú)縫地切換回原來(lái)的婚禮策劃任務(wù)，繼續(xù)推進(jìn)。這種強(qiáng)大的多任務(wù)處理能力以及出色的上下文切換能力，無(wú)疑是它邁向真正“智能體”行列的關(guān)鍵一步。

還有一個(gè)演示則聚焦于提升生產(chǎn)力。當(dāng)團(tuán)隊(duì)上傳了一張可愛(ài)的小狗圖片，并要求制作500個(gè)筆記本貼紙時(shí)，Agent迅速自動(dòng)調(diào)用API進(jìn)行樣式設(shè)計(jì)，接著打開(kāi)電商平臺(tái)仔細(xì)比價(jià)，最終將挑選好的商品一一加入購(gòu)物車，還整理出了一份清晰易懂的下單明細(xì)。

革新辦公自動(dòng)化模式

挑戰(zhàn)微軟霸主地位

OpenAI正通過(guò)Agent功能挑戰(zhàn)微軟Office的統(tǒng)治地位。由于微軟已將.xlsx和.pptx文件格式開(kāi)源，ChatGPT可不依賴Office原生應(yīng)用直接生成兼容文檔。

在PPT制作演示中，Agent通過(guò)Google Drive API獲取素材，結(jié)合設(shè)計(jì)模板引擎，10分鐘內(nèi)生成15頁(yè)專業(yè)演示文稿，包含數(shù)據(jù)可視化和圖文排版。用戶可直接下載并在本地PowerPoint中打開(kāi)。

當(dāng)面臨制定一份參觀30多個(gè)美國(guó)職棒大聯(lián)盟球場(chǎng)的最佳行程安排這一任務(wù)時(shí)，對(duì)于人類而言，這簡(jiǎn)直是一場(chǎng)令人頭疼的“噩夢(mèng)”，繁雜的信息梳理與行程規(guī)劃讓人望而卻步。然而，ChatGPT agent卻展現(xiàn)出了驚人的效率，僅耗時(shí)25分鐘，就生成了一份直觀且可視化的Excel表格，將行程安排得明明白白。

當(dāng)然，它目前也并非毫無(wú)瑕疵。就拿生成的PPT來(lái)說(shuō)，暫時(shí)還無(wú)法進(jìn)行二次修改。這是因?yàn)樗捎玫募夹g(shù)路徑是直接生成代碼來(lái)創(chuàng)建文檔，而不是像人類那樣通過(guò)點(diǎn)擊操作來(lái)完成，不過(guò)這也恰恰凸顯了其底層邏輯具有顛覆性意義。

三、性能碾壓安全方面奧特曼親自發(fā)文

基準(zhǔn)測(cè)試數(shù)據(jù)揭示了Agent的強(qiáng)悍實(shí)力。在衡量通用智能的Humanity’s Last Exam測(cè)試中，它以41.6%的得分碾壓前代模型；

數(shù)學(xué)方面，F(xiàn)rontierMath是目前已知最難的數(shù)學(xué)基準(zhǔn)測(cè)試，包含全新且未公開(kāi)發(fā)表的問(wèn)題，通常需要數(shù)學(xué)專家花費(fèi)數(shù)小時(shí)甚至數(shù)天才能解決。在具備工具使用能力（例如可訪問(wèn)終端以執(zhí)行代碼）的情況下，ChatGPT Agent 在該測(cè)試中達(dá)到了 27.4% 的準(zhǔn)確率，遠(yuǎn)遠(yuǎn)超越此前的所有模型。。

電子表格處理能力同樣驚艷。在SpreadsheetBench測(cè)試中，使用LibreOffice工具時(shí)完成30%任務(wù)，獲得終端原始Excel文件訪問(wèn)權(quán)限后，性能躍升至45%。

OpenAI針對(duì)ChatGPTAgent開(kāi)展了專項(xiàng)評(píng)估，選取了BrowseComp基準(zhǔn)測(cè)試作為評(píng)估場(chǎng)景。該基準(zhǔn)由OpenAI于今年年初推出，主要作用是衡量具備瀏覽能力的Agent在網(wǎng)絡(luò)中查找那些難以獲取信息的能力。在這次測(cè)試中，ChatGPTAgent表現(xiàn)出色，一舉創(chuàng)下了新的SOTA（當(dāng)前最優(yōu)表現(xiàn)）紀(jì)錄，得分達(dá)到68.9%，相較于deepresearch高出了17.4個(gè)百分點(diǎn)。

最后，在WebArena基準(zhǔn)測(cè)試?yán)?，該測(cè)試主要聚焦于評(píng)估網(wǎng)頁(yè)瀏覽型Agent完成真實(shí)網(wǎng)頁(yè)任務(wù)的能力。ChatGPTAgent同樣有著亮眼表現(xiàn)，其成績(jī)超越了由o3驅(qū)動(dòng)的CUA（也就是驅(qū)動(dòng)Operator的模型）。

面對(duì)自主AI的安全隱憂，奧特曼發(fā)文：

Agent象征著AI系統(tǒng)能力達(dá)到了全新高度，它能夠借助自身所依托的計(jì)算機(jī)，為用戶完成一些特殊且復(fù)雜的任務(wù)。它融合了Deep Research和Operator的核心優(yōu)勢(shì)，不過(guò)其實(shí)際功能遠(yuǎn)超人們的想象——它可以進(jìn)行長(zhǎng)時(shí)間的深度思考，運(yùn)用各類工具，開(kāi)展更深入的分析，采取相應(yīng)行動(dòng)，之后再進(jìn)一步深入思考，如此循環(huán)。

例如，在發(fā)布會(huì)上我們展示了一個(gè)為朋友婚禮做籌備的演示，涵蓋購(gòu)買服裝、預(yù)訂行程、挑選禮物等事項(xiàng)。此外，還展示了一個(gè)分析數(shù)據(jù)并創(chuàng)建工作演示文稿的案例。

盡管Agent具有極大的效用，但潛在風(fēng)險(xiǎn)也不容小覷。我們已在其中構(gòu)建了大量的安全措施與預(yù)警機(jī)制，還采取了比以往更為廣泛的緩解策略，從強(qiáng)大的訓(xùn)練體系到系統(tǒng)安全保障，再到用戶自主控制等方面都有涉及，但我們無(wú)法預(yù)知所有可能發(fā)生的情況。秉持迭代部署的理念，我們會(huì)向用戶發(fā)出諸多警告，并給予用戶自主決定是否謹(jǐn)慎采取行動(dòng)的自由。

我會(huì)向家人解釋，這是處于前沿且具有實(shí)驗(yàn)性質(zhì)的技術(shù)。這是一個(gè)嘗試未來(lái)的契機(jī)，但在我們有機(jī)會(huì)在現(xiàn)實(shí)世界中對(duì)它進(jìn)行研究并加以改進(jìn)之前，我不會(huì)將它用于高風(fēng)險(xiǎn)場(chǎng)景，也不會(huì)利用它獲取大量個(gè)人信息。我們尚不清楚它具體會(huì)產(chǎn)生何種影響，但惡意行為者可能會(huì)試圖“誘騙”用戶的AI Agent，使其泄露本不該提供的隱私信息，并采取本不該采取的行動(dòng)，而且這些行為的方式是我們難以預(yù)料的。

我們建議授予Agent完成任務(wù)所需的最低訪問(wèn)權(quán)限，以此降低隱私和安全風(fēng)險(xiǎn)。比如，我可以授權(quán)Agent訪問(wèn)我的日歷，以便安排一個(gè)合適的聚餐時(shí)間。但如果我只是讓它幫我買衣服，就不需要賦予它任何訪問(wèn)權(quán)限。像“查看我昨晚收到的電子郵件，并采取一切必要措施處理，不要問(wèn)任何后續(xù)問(wèn)題”這類任務(wù)，風(fēng)險(xiǎn)就比較大。這可能會(huì)導(dǎo)致惡意電子郵件中不可信的內(nèi)容誘騙模型泄露你的數(shù)據(jù)。

我們認(rèn)為，重要的是從接觸現(xiàn)實(shí)開(kāi)始學(xué)習(xí)。并且隨著我們更好地量化和降低潛在風(fēng)險(xiǎn)，人們應(yīng)當(dāng)謹(jǐn)慎且緩慢地采用這些工具。和其他新的能力水平一樣，社會(huì)、技術(shù)和風(fēng)險(xiǎn)緩解策略需要協(xié)同發(fā)展。

結(jié)語(yǔ)：

ChatGPT Agent的落地，無(wú)異于向生產(chǎn)力軟件市場(chǎng)投下了一顆“深水炸彈”。它不再滿足于充當(dāng)聊天機(jī)器人或?qū)懽髦?，而是野心勃勃地?gòu)建一個(gè)集信息處理、工具操作與決策支持于一體的在線服務(wù)平臺(tái)。

對(duì)于企業(yè)而言，這意味著基礎(chǔ)的數(shù)據(jù)整理、報(bào)告生成、競(jìng)品分析等環(huán)節(jié)將迎來(lái)效率的指數(shù)級(jí)躍升，人力資源有望向更高價(jià)值的戰(zhàn)略與創(chuàng)意領(lǐng)域傾斜。然而，隨之而來(lái)的挑戰(zhàn)同樣嚴(yán)峻：工作流程的重構(gòu)、員工技能的再培訓(xùn)、以及AI執(zhí)行結(jié)果的責(zé)任歸屬。OpenAI在安全機(jī)制上的謹(jǐn)慎設(shè)計(jì)（如操作接管、敏感攔截）是必要的起點(diǎn)，但企業(yè)和監(jiān)管機(jī)構(gòu)需共同構(gòu)建更完善的治理框架?？梢灶A(yù)見(jiàn)，Agent技術(shù)將率先在敢于擁抱變革的組織中扎根，并逐步重塑全球商業(yè)運(yùn)作的效率基準(zhǔn)與成本結(jié)構(gòu)。

分享到

OpenAI

lixiangjing

算力豹主編

lixiangjing

相關(guān)推薦

近期文章

熱門標(biāo)簽