上圖為兩種人類(lèi)與智能體交互形式的比對(duì)。左側(cè)的被動(dòng)式Agent只能被動(dòng)接受用戶(hù)指令并生成回復(fù),而右側(cè)的主動(dòng)式Agent可以通過(guò)觀測(cè)環(huán)境主動(dòng)推斷與提出任務(wù)。
當(dāng)前,哪怕是ChatGPT等最先進(jìn)的AI Agent都是傳統(tǒng)的被動(dòng)式Agent (上圖左側(cè)所示),即需要用戶(hù)通過(guò)明確的指令顯示告訴Agent應(yīng)該做什么,Agent才能繼續(xù)執(zhí)行接下來(lái)的任務(wù)。
新范式下的Agent不再是簡(jiǎn)單的指令執(zhí)行者,而是升級(jí)成為了具有”眼力見(jiàn)”的智能助手(上圖右側(cè)所示)。
它具備”眼中有活、主動(dòng)幫助”的主動(dòng)能動(dòng)性,能夠主動(dòng)觀察環(huán)境、預(yù)判用戶(hù)需求,像”肚子里的蛔蟲(chóng)”一樣,在未被明確指示的情況下主動(dòng)幫用戶(hù)排憂(yōu)解難。
主動(dòng)Agent交互范式應(yīng)用場(chǎng)景demo演示
場(chǎng)景 1:在一段情侶聊天的場(chǎng)景中,男生邀請(qǐng)女生一起要在周六去環(huán)球影城并于早上八點(diǎn)來(lái)接女生,當(dāng)Agent獲取用戶(hù)授權(quán)之后隨時(shí)保持在線的“候命狀態(tài)”,當(dāng)Agent通過(guò)上下文聊天內(nèi)容實(shí)時(shí)識(shí)別到女生的需求,在沒(méi)有用戶(hù)明確下指令的情況下,Agent主動(dòng)幫女生定了一個(gè)周日早上七點(diǎn)的鬧鐘用來(lái)提醒起床。
場(chǎng)景 2:當(dāng)用戶(hù)在電腦上接收到一份重要文件(學(xué)習(xí)課件、發(fā)票等)時(shí),Agent主動(dòng)幫用戶(hù)把文件存到了本地,并自動(dòng)識(shí)別出PDF文件第一頁(yè)顯示的標(biāo)題然后幫用戶(hù)把文件名進(jìn)行了重命名。
該研究除了提出以上開(kāi)創(chuàng)性的主動(dòng) Agent范式之外,還通過(guò)采集不同場(chǎng)景下的人類(lèi)活動(dòng)數(shù)據(jù)構(gòu)建了一個(gè)環(huán)境模擬器,進(jìn)而構(gòu)建了數(shù)據(jù)集ProactiveBench,通過(guò)訓(xùn)練模型獲得了與人類(lèi)高度一致的獎(jiǎng)勵(lì)模型,并比對(duì)了不同模型在數(shù)據(jù)集下的性能。
主動(dòng)Agent技術(shù)原理
下圖展示了主動(dòng) Agent 技術(shù)原理的整體流程。為了讓智能體能夠主動(dòng)提出任務(wù),該研究設(shè)計(jì)了三個(gè)組件以模擬不同場(chǎng)景下的環(huán)境信息,用戶(hù)行為和對(duì)智能體提出任務(wù)的反饋。
數(shù)據(jù)生成過(guò)程總覽。該過(guò)程包含了初始環(huán)境與任務(wù)設(shè)置,事件生成,主動(dòng)預(yù)測(cè),用戶(hù)判斷和行動(dòng)執(zhí)行。
1、環(huán)境模擬器模擬了一個(gè)特定環(huán)境,并為智能體的交互提供了一個(gè)沙盒條件。模擬器通過(guò)使用基于Activity Watcher軟件采集到的真實(shí)人類(lèi)數(shù)據(jù)以提升生成事件的質(zhì)量。環(huán)境模擬器的主要功能為事件生成與狀態(tài)維護(hù):通過(guò)使用GPT-4o 從人類(lèi)注釋員處收集的種子事件以生成一個(gè)需要交互的具體環(huán)境,同時(shí)生成所有相關(guān)實(shí)體以讓智能體執(zhí)行任務(wù)。對(duì)于每個(gè)場(chǎng)景,環(huán)境模擬器接收用戶(hù)活動(dòng)并生成詳細(xì)的,邏輯通順合理的事件,環(huán)境模擬器將會(huì)持續(xù)生成事件,更新實(shí)體狀態(tài),產(chǎn)生特定反饋,直到當(dāng)前環(huán)境下沒(méi)有更多事件以供生成。
2、主動(dòng)智能體將會(huì)通過(guò)環(huán)境模擬器提供的信息預(yù)測(cè)用戶(hù)意圖,生成預(yù)測(cè)任務(wù)。每當(dāng)智能體接受一個(gè)新事件后,它將首先更新自己的記憶,結(jié)合用戶(hù)之前的反饋和歷史交互信息,主動(dòng)智能體將能夠結(jié)合用戶(hù)性格提出可能的任務(wù)。如果主動(dòng)智能體沒(méi)有檢測(cè)到需要,其將保持靜默,反之將會(huì)提出一個(gè)任務(wù)。一旦此任務(wù)被用戶(hù)接受,那么主動(dòng)智能體將在環(huán)境模擬器中執(zhí)行該任務(wù),并進(jìn)而產(chǎn)生后續(xù)的系列事件。
3、用戶(hù)智能體將模擬用戶(hù)行為并對(duì)主動(dòng)智能體的任務(wù)做出反饋。用戶(hù)智能體為經(jīng)過(guò)提示的GPT-4o,在獲取預(yù)測(cè)之后,用戶(hù)智能體將會(huì)決定是否接受任務(wù)。該研究通過(guò)從人類(lèi)標(biāo)注員處收集判斷,并訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型以模擬這一過(guò)程。人類(lèi)標(biāo)注員在研究開(kāi)發(fā)的標(biāo)注平臺(tái)上進(jìn)行標(biāo)注,對(duì)特定時(shí)間下,9個(gè)不同的大語(yǔ)言模型生成的多樣化預(yù)測(cè)進(jìn)行判斷,并通過(guò)多數(shù)投票的方式?jīng)Q定某個(gè)回合用戶(hù)是否具有需求,以及用戶(hù)傾向于接受什么類(lèi)型的任務(wù)。值得一提的是,人類(lèi)標(biāo)注員在測(cè)試集上達(dá)到了91.67%的一致性,充分說(shuō)明了測(cè)試集的可靠性。
新一代主動(dòng)Agent交互范式的核心特點(diǎn)
一、主動(dòng)性
主動(dòng)觀察環(huán)境:主動(dòng)Agent交互范式下的Agent能夠主動(dòng)觀察并理解其所在的環(huán)境,這是其主動(dòng)性的基礎(chǔ)。通過(guò)環(huán)境模擬器,Agent可以模擬一個(gè)特定的環(huán)境,并實(shí)時(shí)接收和處理來(lái)自該環(huán)境的信息。
主動(dòng)預(yù)測(cè)用戶(hù)需求:在主動(dòng)觀察環(huán)境的基礎(chǔ)上,Agent能夠利用自身的智能算法和模型,預(yù)測(cè)用戶(hù)可能的需求或意圖。這種預(yù)測(cè)能力使得Agent能夠在用戶(hù)明確提出需求之前,就主動(dòng)提供幫助或建議。
主動(dòng)提出任務(wù):當(dāng)Agent預(yù)測(cè)到用戶(hù)可能有需求時(shí),它會(huì)主動(dòng)提出一個(gè)或多個(gè)可能的任務(wù)供用戶(hù)選擇。這些任務(wù)通常是基于對(duì)用戶(hù)歷史行為、當(dāng)前環(huán)境以及Agent自身能力的綜合考量而提出的。
主動(dòng)執(zhí)行任務(wù):一旦用戶(hù)接受了Agent提出的任務(wù),Agent就會(huì)立即執(zhí)行該任務(wù),并在執(zhí)行過(guò)程中持續(xù)監(jiān)控環(huán)境變化和用戶(hù)需求的變化,以確保任務(wù)的順利完成。
二、智能性
高級(jí)強(qiáng)化學(xué)習(xí)算法:主動(dòng)Agent交互范式可能采用了更為高級(jí)的強(qiáng)化學(xué)習(xí)算法,使得Agent在面對(duì)復(fù)雜、動(dòng)態(tài)的環(huán)境時(shí),能夠基于自身的某種內(nèi)在“動(dòng)機(jī)”做出合理的決策。這種算法不僅提高了Agent的決策能力,還增強(qiáng)了其適應(yīng)性和魯棒性。
靈活的知識(shí)表示與推理:與傳統(tǒng)AI相比,主動(dòng)Agent交互范式下的Agent能夠以更加靈活、動(dòng)態(tài)的方式表示知識(shí),并根據(jù)自身的主觀能動(dòng)性進(jìn)行推理。這種能力使得Agent能夠處理更復(fù)雜、需要主觀判斷的任務(wù),如醫(yī)療診斷輔助、內(nèi)容推薦等。
個(gè)性化服務(wù):通過(guò)持續(xù)的環(huán)境觀察學(xué)習(xí)和用戶(hù)反饋,主動(dòng)Agent能夠適應(yīng)用戶(hù)的生活方式,并提供個(gè)性化的服務(wù)。例如,在情侶聊天的場(chǎng)景中,Agent可以識(shí)別到女生的需求,并主動(dòng)設(shè)置鬧鐘;在管理文件時(shí),Agent能夠自動(dòng)存儲(chǔ)、識(shí)別和優(yōu)化文件名稱(chēng)等。
高效的感知與決策模塊:主動(dòng)Agent交互范式下的Agent通常具有高效的感知模塊和決策模塊。感知模塊能夠主動(dòng)篩選和聚焦于對(duì)目標(biāo)有重要意義的數(shù)據(jù),提高處理效率;而決策模塊則能夠基于感知到的信息,快速做出合理的決策。
決策機(jī)制
主動(dòng)Agent的決策機(jī)制是其技術(shù)的核心部分。Agent能夠基于感知到的信息,通過(guò)構(gòu)建環(huán)境模型、設(shè)定目標(biāo)函數(shù)以及采用各種決策算法(如基于規(guī)則的推理、基于模型的決策、基于目標(biāo)的決策以及基于學(xué)習(xí)的決策等),來(lái)做出最優(yōu)的決策。其中,深度強(qiáng)化學(xué)習(xí)(DRL)為Agent提供了新的決策解決方案,它能夠在復(fù)雜的環(huán)境中自動(dòng)學(xué)習(xí)最優(yōu)的決策策略,無(wú)需預(yù)先設(shè)計(jì)決策模型。
此外,Agent還可以使用馬爾可夫決策過(guò)程(MDP)來(lái)描述其決策過(guò)程,并通過(guò)求解值函數(shù)和策略函數(shù)來(lái)實(shí)現(xiàn)最優(yōu)決策。
結(jié)語(yǔ)
清華大學(xué)與面壁智能聯(lián)合提出的新一代主動(dòng)Agent交互范式是人工智能領(lǐng)域的重要?jiǎng)?chuàng)新之一。通過(guò)引入主觀能動(dòng)性、支持多模態(tài)感知與交互以及鼓勵(lì)持續(xù)學(xué)習(xí)與進(jìn)化等核心特點(diǎn),該范式有望推動(dòng)AI技術(shù)向更高層次發(fā)展,并為未來(lái)的AI應(yīng)用開(kāi)辟更廣闊的空間。(文/宋雨涵)