該統(tǒng)一智能體系統(tǒng)的核心亮點(diǎn)在于,首次實(shí)現(xiàn)了三大AI技術(shù)的深度融合。它將Operator所具備的與網(wǎng)站交互的能力、DeepResearch擅長(zhǎng)整合信息的技巧,以及ChatGPT在智能對(duì)話方面的優(yōu)勢(shì),完美地整合在一起。
文字編輯|宋雨涵
1
AI具備類人電腦操作能力
自主為你工作
如今,ChatGPT可以直接使用計(jì)算機(jī),全程自主為你工作。從智能瀏覽網(wǎng)頁、篩選結(jié)果,在需要時(shí)提醒安全登錄、運(yùn)行代碼、進(jìn)行分析,還能直出PPT和Excel匯總發(fā)現(xiàn)結(jié)果。
一項(xiàng)看似繁雜的任務(wù)擺在了眼前:為朋友精心策劃一場(chǎng)婚禮。這要求AI不僅要依據(jù)著裝規(guī)范和天氣狀況,推薦合適的禮服,還得預(yù)訂酒店,并準(zhǔn)備好貼心的禮物。
接到這項(xiàng)指令后,ChatGPT agent沒有絲毫等待,即刻投入行動(dòng)。它首先仔細(xì)確認(rèn)了婚禮日期等關(guān)鍵信息,隨后自主打開瀏覽器,有條不紊地一步步操作,還將自己的“思考路徑”清晰明了地呈現(xiàn)給人類。整個(gè)過程,就如同一位訓(xùn)練有素、專業(yè)高效的數(shù)字助理在盡職工作。
更令人驚嘆的場(chǎng)景出現(xiàn)了。在執(zhí)行婚禮策劃任務(wù)的過程中,研究員突然給出了一個(gè)全新的指令:“幫我找一雙9.5碼的黑色正裝鞋”。模型幾乎沒有片刻遲疑,迅速暫停了正在進(jìn)行的婚禮策劃任務(wù),轉(zhuǎn)而優(yōu)先處理這個(gè)新需求。待新需求處理完畢后,又無縫地切換回原來的婚禮策劃任務(wù),繼續(xù)推進(jìn)。這種強(qiáng)大的多任務(wù)處理能力以及出色的上下文切換能力,無疑是它邁向真正“智能體”行列的關(guān)鍵一步。
還有一個(gè)演示則聚焦于提升生產(chǎn)力。當(dāng)團(tuán)隊(duì)上傳了一張可愛的小狗圖片,并要求制作500個(gè)筆記本貼紙時(shí),Agent迅速自動(dòng)調(diào)用API進(jìn)行樣式設(shè)計(jì),接著打開電商平臺(tái)仔細(xì)比價(jià),最終將挑選好的商品一一加入購物車,還整理出了一份清晰易懂的下單明細(xì)。
2
革新辦公自動(dòng)化模式
挑戰(zhàn)微軟霸主地位
OpenAI正通過Agent功能挑戰(zhàn)微軟Office的統(tǒng)治地位。由于微軟已將.xlsx和.pptx文件格式開源,ChatGPT可不依賴Office原生應(yīng)用直接生成兼容文檔。
在PPT制作演示中,Agent通過Google Drive API獲取素材,結(jié)合設(shè)計(jì)模板引擎,10分鐘內(nèi)生成15頁專業(yè)演示文稿,包含數(shù)據(jù)可視化和圖文排版。用戶可直接下載并在本地PowerPoint中打開。
當(dāng)面臨制定一份參觀30多個(gè)美國職棒大聯(lián)盟球場(chǎng)的最佳行程安排這一任務(wù)時(shí),對(duì)于人類而言,這簡(jiǎn)直是一場(chǎng)令人頭疼的“噩夢(mèng)”,繁雜的信息梳理與行程規(guī)劃讓人望而卻步。然而,ChatGPT agent卻展現(xiàn)出了驚人的效率,僅耗時(shí)25分鐘,就生成了一份直觀且可視化的Excel表格,將行程安排得明明白白。
當(dāng)然,它目前也并非毫無瑕疵。就拿生成的PPT來說,暫時(shí)還無法進(jìn)行二次修改。這是因?yàn)樗捎玫募夹g(shù)路徑是直接生成代碼來創(chuàng)建文檔,而不是像人類那樣通過點(diǎn)擊操作來完成,不過這也恰恰凸顯了其底層邏輯具有顛覆性意義。
三、性能碾壓安全方面奧特曼親自發(fā)文
基準(zhǔn)測(cè)試數(shù)據(jù)揭示了Agent的強(qiáng)悍實(shí)力。在衡量通用智能的Humanity’s Last Exam測(cè)試中,它以41.6%的得分碾壓前代模型;
數(shù)學(xué)方面,F(xiàn)rontierMath是目前已知最難的數(shù)學(xué)基準(zhǔn)測(cè)試,包含全新且未公開發(fā)表的問題,通常需要數(shù)學(xué)專家花費(fèi)數(shù)小時(shí)甚至數(shù)天才能解決。在具備工具使用能力(例如可訪問終端以執(zhí)行代碼)的情況下,ChatGPT Agent 在該測(cè)試中達(dá)到了 27.4% 的準(zhǔn)確率,遠(yuǎn)遠(yuǎn)超越此前的所有模型。。
電子表格處理能力同樣驚艷。在SpreadsheetBench測(cè)試中,使用LibreOffice工具時(shí)完成30%任務(wù),獲得終端原始Excel文件訪問權(quán)限后,性能躍升至45%。
OpenAI針對(duì)ChatGPTAgent開展了專項(xiàng)評(píng)估,選取了BrowseComp基準(zhǔn)測(cè)試作為評(píng)估場(chǎng)景。該基準(zhǔn)由OpenAI于今年年初推出,主要作用是衡量具備瀏覽能力的Agent在網(wǎng)絡(luò)中查找那些難以獲取信息的能力。在這次測(cè)試中,ChatGPTAgent表現(xiàn)出色,一舉創(chuàng)下了新的SOTA(當(dāng)前最優(yōu)表現(xiàn))紀(jì)錄,得分達(dá)到68.9%,相較于deepresearch高出了17.4個(gè)百分點(diǎn)。
最后,在WebArena基準(zhǔn)測(cè)試?yán)?,該測(cè)試主要聚焦于評(píng)估網(wǎng)頁瀏覽型Agent完成真實(shí)網(wǎng)頁任務(wù)的能力。ChatGPTAgent同樣有著亮眼表現(xiàn),其成績(jī)超越了由o3驅(qū)動(dòng)的CUA(也就是驅(qū)動(dòng)Operator的模型)。
面對(duì)自主AI的安全隱憂,奧特曼發(fā)文:
Agent象征著AI系統(tǒng)能力達(dá)到了全新高度,它能夠借助自身所依托的計(jì)算機(jī),為用戶完成一些特殊且復(fù)雜的任務(wù)。它融合了Deep Research和Operator的核心優(yōu)勢(shì),不過其實(shí)際功能遠(yuǎn)超人們的想象——它可以進(jìn)行長(zhǎng)時(shí)間的深度思考,運(yùn)用各類工具,開展更深入的分析,采取相應(yīng)行動(dòng),之后再進(jìn)一步深入思考,如此循環(huán)。
例如,在發(fā)布會(huì)上我們展示了一個(gè)為朋友婚禮做籌備的演示,涵蓋購買服裝、預(yù)訂行程、挑選禮物等事項(xiàng)。此外,還展示了一個(gè)分析數(shù)據(jù)并創(chuàng)建工作演示文稿的案例。
盡管Agent具有極大的效用,但潛在風(fēng)險(xiǎn)也不容小覷。我們已在其中構(gòu)建了大量的安全措施與預(yù)警機(jī)制,還采取了比以往更為廣泛的緩解策略,從強(qiáng)大的訓(xùn)練體系到系統(tǒng)安全保障,再到用戶自主控制等方面都有涉及,但我們無法預(yù)知所有可能發(fā)生的情況。秉持迭代部署的理念,我們會(huì)向用戶發(fā)出諸多警告,并給予用戶自主決定是否謹(jǐn)慎采取行動(dòng)的自由。
我會(huì)向家人解釋,這是處于前沿且具有實(shí)驗(yàn)性質(zhì)的技術(shù)。這是一個(gè)嘗試未來的契機(jī),但在我們有機(jī)會(huì)在現(xiàn)實(shí)世界中對(duì)它進(jìn)行研究并加以改進(jìn)之前,我不會(huì)將它用于高風(fēng)險(xiǎn)場(chǎng)景,也不會(huì)利用它獲取大量個(gè)人信息。我們尚不清楚它具體會(huì)產(chǎn)生何種影響,但惡意行為者可能會(huì)試圖“誘騙”用戶的AI Agent,使其泄露本不該提供的隱私信息,并采取本不該采取的行動(dòng),而且這些行為的方式是我們難以預(yù)料的。
我們建議授予Agent完成任務(wù)所需的最低訪問權(quán)限,以此降低隱私和安全風(fēng)險(xiǎn)。比如,我可以授權(quán)Agent訪問我的日歷,以便安排一個(gè)合適的聚餐時(shí)間。但如果我只是讓它幫我買衣服,就不需要賦予它任何訪問權(quán)限。像“查看我昨晚收到的電子郵件,并采取一切必要措施處理,不要問任何后續(xù)問題”這類任務(wù),風(fēng)險(xiǎn)就比較大。這可能會(huì)導(dǎo)致惡意電子郵件中不可信的內(nèi)容誘騙模型泄露你的數(shù)據(jù)。
我們認(rèn)為,重要的是從接觸現(xiàn)實(shí)開始學(xué)習(xí)。并且隨著我們更好地量化和降低潛在風(fēng)險(xiǎn),人們應(yīng)當(dāng)謹(jǐn)慎且緩慢地采用這些工具。和其他新的能力水平一樣,社會(huì)、技術(shù)和風(fēng)險(xiǎn)緩解策略需要協(xié)同發(fā)展。
結(jié)語:
ChatGPT Agent的落地,無異于向生產(chǎn)力軟件市場(chǎng)投下了一顆“深水炸彈”。它不再滿足于充當(dāng)聊天機(jī)器人或?qū)懽髦?,而是野心勃勃地?gòu)建一個(gè)集信息處理、工具操作與決策支持于一體的在線服務(wù)平臺(tái)。
對(duì)于企業(yè)而言,這意味著基礎(chǔ)的數(shù)據(jù)整理、報(bào)告生成、競(jìng)品分析等環(huán)節(jié)將迎來效率的指數(shù)級(jí)躍升,人力資源有望向更高價(jià)值的戰(zhàn)略與創(chuàng)意領(lǐng)域傾斜。然而,隨之而來的挑戰(zhàn)同樣嚴(yán)峻:工作流程的重構(gòu)、員工技能的再培訓(xùn)、以及AI執(zhí)行結(jié)果的責(zé)任歸屬。OpenAI在安全機(jī)制上的謹(jǐn)慎設(shè)計(jì)(如操作接管、敏感攔截)是必要的起點(diǎn),但企業(yè)和監(jiān)管機(jī)構(gòu)需共同構(gòu)建更完善的治理框架??梢灶A(yù)見,Agent技術(shù)將率先在敢于擁抱變革的組織中扎根,并逐步重塑全球商業(yè)運(yùn)作的效率基準(zhǔn)與成本結(jié)構(gòu)。