上圖為兩種人類與智能體交互形式的比對。左側的被動式Agent只能被動接受用戶指令并生成回復,而右側的主動式Agent可以通過觀測環(huán)境主動推斷與提出任務。

當前,哪怕是ChatGPT等最先進的AI Agent都是傳統(tǒng)的被動式Agent (上圖左側所示),即需要用戶通過明確的指令顯示告訴Agent應該做什么,Agent才能繼續(xù)執(zhí)行接下來的任務。

新范式下的Agent不再是簡單的指令執(zhí)行者,而是升級成為了具有”眼力見”的智能助手(上圖右側所示)。

它具備”眼中有活、主動幫助”的主動能動性,能夠主動觀察環(huán)境、預判用戶需求,像”肚子里的蛔蟲”一樣,在未被明確指示的情況下主動幫用戶排憂解難。

主動Agent交互范式應用場景demo演示

場景 1:在一段情侶聊天的場景中,男生邀請女生一起要在周六去環(huán)球影城并于早上八點來接女生,當Agent獲取用戶授權之后隨時保持在線的“候命狀態(tài)”,當Agent通過上下文聊天內(nèi)容實時識別到女生的需求,在沒有用戶明確下指令的情況下,Agent主動幫女生定了一個周日早上七點的鬧鐘用來提醒起床。

場景 2:當用戶在電腦上接收到一份重要文件(學習課件、發(fā)票等)時,Agent主動幫用戶把文件存到了本地,并自動識別出PDF文件第一頁顯示的標題然后幫用戶把文件名進行了重命名。

該研究除了提出以上開創(chuàng)性的主動 Agent范式之外,還通過采集不同場景下的人類活動數(shù)據(jù)構建了一個環(huán)境模擬器,進而構建了數(shù)據(jù)集ProactiveBench,通過訓練模型獲得了與人類高度一致的獎勵模型,并比對了不同模型在數(shù)據(jù)集下的性能。

主動Agent技術原理

下圖展示了主動 Agent 技術原理的整體流程。為了讓智能體能夠主動提出任務,該研究設計了三個組件以模擬不同場景下的環(huán)境信息,用戶行為和對智能體提出任務的反饋。

數(shù)據(jù)生成過程總覽。該過程包含了初始環(huán)境與任務設置,事件生成,主動預測,用戶判斷和行動執(zhí)行。

1、環(huán)境模擬器模擬了一個特定環(huán)境,并為智能體的交互提供了一個沙盒條件。模擬器通過使用基于Activity Watcher軟件采集到的真實人類數(shù)據(jù)以提升生成事件的質(zhì)量。環(huán)境模擬器的主要功能為事件生成與狀態(tài)維護:通過使用GPT-4o 從人類注釋員處收集的種子事件以生成一個需要交互的具體環(huán)境,同時生成所有相關實體以讓智能體執(zhí)行任務。對于每個場景,環(huán)境模擬器接收用戶活動并生成詳細的,邏輯通順合理的事件,環(huán)境模擬器將會持續(xù)生成事件,更新實體狀態(tài),產(chǎn)生特定反饋,直到當前環(huán)境下沒有更多事件以供生成。
2、主動智能體將會通過環(huán)境模擬器提供的信息預測用戶意圖,生成預測任務。每當智能體接受一個新事件后,它將首先更新自己的記憶,結合用戶之前的反饋和歷史交互信息,主動智能體將能夠結合用戶性格提出可能的任務。如果主動智能體沒有檢測到需要,其將保持靜默,反之將會提出一個任務。一旦此任務被用戶接受,那么主動智能體將在環(huán)境模擬器中執(zhí)行該任務,并進而產(chǎn)生后續(xù)的系列事件。
3、用戶智能體將模擬用戶行為并對主動智能體的任務做出反饋。用戶智能體為經(jīng)過提示的GPT-4o,在獲取預測之后,用戶智能體將會決定是否接受任務。該研究通過從人類標注員處收集判斷,并訓練一個獎勵模型以模擬這一過程。人類標注員在研究開發(fā)的標注平臺上進行標注,對特定時間下,9個不同的大語言模型生成的多樣化預測進行判斷,并通過多數(shù)投票的方式?jīng)Q定某個回合用戶是否具有需求,以及用戶傾向于接受什么類型的任務。值得一提的是,人類標注員在測試集上達到了91.67%的一致性,充分說明了測試集的可靠性。

新一代主動Agent交互范式的核心特點

一、主動性

主動觀察環(huán)境:主動Agent交互范式下的Agent能夠主動觀察并理解其所在的環(huán)境,這是其主動性的基礎。通過環(huán)境模擬器,Agent可以模擬一個特定的環(huán)境,并實時接收和處理來自該環(huán)境的信息。

主動預測用戶需求:在主動觀察環(huán)境的基礎上,Agent能夠利用自身的智能算法和模型,預測用戶可能的需求或意圖。這種預測能力使得Agent能夠在用戶明確提出需求之前,就主動提供幫助或建議。

主動提出任務:當Agent預測到用戶可能有需求時,它會主動提出一個或多個可能的任務供用戶選擇。這些任務通常是基于對用戶歷史行為、當前環(huán)境以及Agent自身能力的綜合考量而提出的。

主動執(zhí)行任務:一旦用戶接受了Agent提出的任務,Agent就會立即執(zhí)行該任務,并在執(zhí)行過程中持續(xù)監(jiān)控環(huán)境變化和用戶需求的變化,以確保任務的順利完成。

二、智能性

高級強化學習算法:主動Agent交互范式可能采用了更為高級的強化學習算法,使得Agent在面對復雜、動態(tài)的環(huán)境時,能夠基于自身的某種內(nèi)在“動機”做出合理的決策。這種算法不僅提高了Agent的決策能力,還增強了其適應性和魯棒性。

靈活的知識表示與推理:與傳統(tǒng)AI相比,主動Agent交互范式下的Agent能夠以更加靈活、動態(tài)的方式表示知識,并根據(jù)自身的主觀能動性進行推理。這種能力使得Agent能夠處理更復雜、需要主觀判斷的任務,如醫(yī)療診斷輔助、內(nèi)容推薦等。

個性化服務:通過持續(xù)的環(huán)境觀察學習和用戶反饋,主動Agent能夠適應用戶的生活方式,并提供個性化的服務。例如,在情侶聊天的場景中,Agent可以識別到女生的需求,并主動設置鬧鐘;在管理文件時,Agent能夠自動存儲、識別和優(yōu)化文件名稱等。

高效的感知與決策模塊:主動Agent交互范式下的Agent通常具有高效的感知模塊和決策模塊。感知模塊能夠主動篩選和聚焦于對目標有重要意義的數(shù)據(jù),提高處理效率;而決策模塊則能夠基于感知到的信息,快速做出合理的決策。

決策機制

主動Agent的決策機制是其技術的核心部分。Agent能夠基于感知到的信息,通過構建環(huán)境模型、設定目標函數(shù)以及采用各種決策算法(如基于規(guī)則的推理、基于模型的決策、基于目標的決策以及基于學習的決策等),來做出最優(yōu)的決策。其中,深度強化學習(DRL)為Agent提供了新的決策解決方案,它能夠在復雜的環(huán)境中自動學習最優(yōu)的決策策略,無需預先設計決策模型。

此外,Agent還可以使用馬爾可夫決策過程(MDP)來描述其決策過程,并通過求解值函數(shù)和策略函數(shù)來實現(xiàn)最優(yōu)決策。

結語

清華大學與面壁智能聯(lián)合提出的新一代主動Agent交互范式是人工智能領域的重要創(chuàng)新之一。通過引入主觀能動性、支持多模態(tài)感知與交互以及鼓勵持續(xù)學習與進化等核心特點,該范式有望推動AI技術向更高層次發(fā)展,并為未來的AI應用開辟更廣闊的空間。(文/宋雨涵)

分享到

lixiangjing

算力豹主編

相關推薦