清華大學THUNLP實驗室長期致力于自然語言處理和人工智能領域的研究,而面壁智能則專注于大模型技術的創(chuàng)新與應用。雙方此前已在多模態(tài)模型MiniCPM-V的開發(fā)上展開合作,取得了很多成果。此次聯(lián)合推出的AgentCPM-GUI,是雙方在移動端智能體領域的一次重要嘗試,標志著大模型技術在移動設備上的進一步落地。
高質量的GUI理解能力:通過在大規(guī)模中英文安卓數(shù)據(jù)集上進行預訓練,模型對常見GUI控件(如按鈕、輸入框、標簽、圖標等)具備定位與理解能力,為精確操作打下基礎。
中文應用深度適配:AgentCPM-GUI是首個針對中文應用精細優(yōu)化的開源GUI智能體,支持高德地圖、大眾點評、嗶哩嗶哩、小紅書等30余個主流中文應用,解決了中文界面交互的特殊挑戰(zhàn)。
增強的規(guī)劃與推理能力:通過強化微調技術(RFT),模型在輸出動作前進行詳細的推理思考,顯著提升復雜任務執(zhí)行的成功率,使操作更加智能化。
緊湊的動作空間設計:采用優(yōu)化的動作空間和緊湊的JSON格式,將平均動作長度壓縮至9.7個token,提升了移動端推理效率,降低了資源消耗。
AgentCPM-GUI的訓練流程包括兩個階段:
監(jiān)督微調(SFT):使用包含屏幕截圖和相應操作的大規(guī)模標注數(shù)據(jù)集,訓練模型理解界面元素并生成正確的操作行為。
強化微調(RFT):通過自我探索和反饋機制,優(yōu)化模型的思考能力和決策策略,提高復雜場景下的任務完成率。
此外,模型的動作設計采用JSON結構化輸出,支持多種操作類型,如點擊、滑動、輸入文本、按鍵操作等,增強了模型的可解釋性和實用性。
應用場景:
AgentCPM-GUI的應用場景廣泛,包括:
智能手機自動化:替代傳統(tǒng)腳本,通過自然語言指令完成日常操作任務。
無障礙輔助:幫助行動不便用戶操控手機應用。
應用測試與質量保證:自動執(zhí)行應用測試流程,發(fā)現(xiàn)潛在問題。
智能助手集成:為現(xiàn)有智能助手提供視覺交互能力。
教育引導:輔助新用戶學習復雜應用的使用方法。
未來,AgentCPM-GUI有望擴展到更多應用場景和平臺,如iOS和桌面系統(tǒng),增強跨應用任務規(guī)劃和執(zhí)行能力,降低模型參數(shù)量,提升端側部署效率,并增強個性化適應能力,根據(jù)用戶習慣調整交互方式。
AgentCPM-GUI已在GitHub開源,可訪問:https://github.com/OpenBMB/AgentCPM-GUI