當前,企業(yè)智能體應(yīng)用雖已在行政答疑、售后客服等場景顯效,但仍普遍面臨知識結(jié)構(gòu)復(fù)雜、業(yè)務(wù)流程個性化和用戶需求發(fā)散三大挑戰(zhàn)?!爸悄荏w應(yīng)用的開發(fā),須在多個維度上具備更強的能力?!眳怯缊灾赋?。
在應(yīng)用開發(fā)引擎層面,ADP3.0聚焦RAG與Agent兩大核心能力升級。通過自研Agentic RAG架構(gòu),平臺可實現(xiàn)對復(fù)雜、多源信息的高精度解析與智能關(guān)聯(lián),支持跨文檔檢索、多步推理與圖譜增強,顯著提升問答完整性與準確性。同時,平臺強化了Agent的任務(wù)規(guī)劃、工具調(diào)用與記憶管理能力,創(chuàng)新提出“動態(tài)無損記憶壓縮”機制,將任務(wù)效率提升百倍以上,并引入多智能體協(xié)同機制,通過任務(wù)拆解與流程編排提升復(fù)雜業(yè)務(wù)處理效率。
模型與生態(tài)內(nèi)容層面,ADP3.0構(gòu)建了覆蓋模型廣場、插件廣場以及提示詞與應(yīng)用模板的資源體系。不僅支持混元等自研模型及第三方模型接入,還提供超140個跨行業(yè)插件、近百個高質(zhì)量提示詞模板以及覆蓋多行業(yè)多場景的最佳實踐,顯著降低開發(fā)門檻。
Agent Infra則確保智能體在生產(chǎn)環(huán)境中穩(wěn)定、可控、安全運行。依托沙箱隔離、全鏈路監(jiān)控與云原生安全能力,ADP3.0為企業(yè)提供從開發(fā)、部署到運營的全生命周期支持。
騰訊云智能體開發(fā)平臺的能力已在QQ瀏覽器等多款產(chǎn)品中驗證成效。接入ADP3.0能力后,QQ瀏覽器AI下載助理任務(wù)成功率明顯提升,用戶發(fā)送一句話,Agent即可完成從檢索、篩選到下載的全流程;即將推出的“訂閱助理”也基于ADP構(gòu)建,支持自然語言精準訂閱。
基于在騰訊C端產(chǎn)品中的實戰(zhàn),騰訊云智能體開發(fā)平臺的能力也得到進一步打磨,更好地為B端客戶服務(wù),實現(xiàn)「CB聯(lián)動」。
騰訊云正通過智能體開發(fā)平臺打造智能體時代的“能力基座”,推動企業(yè)級AI從單點能力走向系統(tǒng)化、生產(chǎn)級應(yīng)用,為千行百業(yè)提供可信、可運營的智能體基礎(chǔ)設(shè)施。
以下為演講全文:
大家好,我是騰訊的吳永堅。今天我分享的主題是:企業(yè)級智能體開發(fā)技術(shù)挑戰(zhàn)與創(chuàng)新。
隨著數(shù)字化浪潮的推進,企業(yè)級智能體已經(jīng)在越來越多場景中廣泛應(yīng)用,實實在在為業(yè)務(wù)帶來了價值。比如,在行政知識問答、商品售后客服等領(lǐng)域,幫助企業(yè)提升了效率、優(yōu)化了體驗。但在幫助企業(yè)真正把智能體“用起來”的過程中,我們也發(fā)現(xiàn)了一些共性的難點:
第一,企業(yè)知識不僅海量,且極其復(fù)雜。大量文檔都是圖文混排、表格嵌套,對知識處理精度提出了非常高的要求。
第二,企業(yè)業(yè)務(wù)流程非常個性化。在多輪業(yè)務(wù)辦理的場景中,對于準確從對話中提取關(guān)鍵信息、靈活響應(yīng)用戶中途修改需求,也有很高的要求。
第三,用戶的需求常常發(fā)散,一個問題中往往包含多個復(fù)雜任務(wù),智能體既要準確理解,又要合理選擇工具,很多時候,單智能體難以應(yīng)對。
針對這些挑戰(zhàn),智能體應(yīng)用的開發(fā),需在多個維度上具備更強的能力。不僅涉及智能體應(yīng)用開發(fā)核心能力,還有廣泛的生態(tài)接入,同時離不開底層基礎(chǔ)設(shè)施的支持。
為此,騰訊云智能體開發(fā)平臺也在持續(xù)升級,致力于打造更完善的企業(yè)級智能體應(yīng)用開發(fā)引擎和基礎(chǔ)設(shè)施,幫助企業(yè)真正把智能體嵌入到業(yè)務(wù)流程,處理真實任務(wù),并帶來可衡量的業(yè)務(wù)價值。
在應(yīng)用開發(fā)層,平臺提供三大核心引擎:知識引擎、工作流引擎和Agent引擎,形成完整的能力矩陣。
在此基礎(chǔ)上,還通過模型廣場、插件廣場等模塊,提供豐富的開發(fā)資源庫,讓企業(yè)開發(fā)者可以根據(jù)不同業(yè)務(wù)場景,按需選擇接入不同的工具與模型。
同時,通過大量實戰(zhàn)經(jīng)驗的沉淀,輸出行業(yè)應(yīng)用模板和系列課程體系,幫助企業(yè)降低學(xué)習與落地門檻。
在底層基礎(chǔ)設(shè)施層,平臺提供身份權(quán)限、安全合規(guī)接入與運行管理等功能,確保智能體可在生產(chǎn)環(huán)境中“穩(wěn)定、可控、安全”地執(zhí)行。
接下來,我從以下三個方面詳細給大家分享一下,關(guān)于企業(yè)級智能體開發(fā)的技術(shù)挑戰(zhàn)和技術(shù)創(chuàng)新。
在智能體應(yīng)用開發(fā)引擎方面,我將為大家分享RAG和Agent方面的核心進展。
企業(yè)級RAG落地,面臨的核心挑戰(zhàn)是:如何精準解析并有效利用企業(yè)中海量且復(fù)雜的知識。
首先,圖文混排的復(fù)雜文檔解析,是知識處理層面的一大挑戰(zhàn)。例如,在面對一份零售行業(yè)說明書時,傳統(tǒng)OCR技術(shù)在解析復(fù)雜版面時,容易丟失關(guān)鍵的產(chǎn)品示意圖或表格,影響知識問答的完整性。
其次,跨文檔的信息關(guān)聯(lián)也是一個難題。當用戶提出諸如“列出計租面積大于100平的所有商戶,并附上這些商戶檔案摘要、關(guān)聯(lián)競爭關(guān)系”這類復(fù)雜問題時,往往需要從多份不同的知識源中查找和關(guān)聯(lián)信息。傳統(tǒng)RAG技術(shù)在跨文檔檢索和信息融合方面能力較弱,導(dǎo)致智能體往往只能回復(fù)不完整的答案,如只輸出了商戶列表,沒有輸出對應(yīng)的答案摘要。
為此,我們從傳統(tǒng) RAG 升級到了 Agentic RAG——通過提供知識庫檢索Agent,智能體不再只是被動檢索,而是能夠自己主動拆解復(fù)雜問題、通過多步調(diào)用檢索工具,從不同文檔中搜集信息,再主動篩選這些信息,最終組織成精準、完整的回答。
面對上述復(fù)雜問題,智能體可以通過自主規(guī)劃,將任務(wù)拆解為三個關(guān)鍵步驟,層層遞進地完成應(yīng)答:
首先,調(diào)用Text-to-SQL工具,精準檢索數(shù)據(jù)表,篩選出“符合條件的商戶列表”;接下來,通過文本檢索工具獲取這些商戶的詳細檔案摘要,包括主營業(yè)務(wù)、入駐時間等關(guān)鍵信息;最后,借助知識圖譜檢索能力,深入分析商戶之間的關(guān)聯(lián)關(guān)系,例如競爭關(guān)系。
在Agentic RAG的能力框架下,我們通過在業(yè)務(wù)場景中不斷攻堅知識問答的深水區(qū)難題,逐漸沉淀出一套多元的RAG能力矩陣,涵蓋文檔解析、一站式檢索引擎、GraphRAG(即圖譜檢索增強)。
文檔解析環(huán)節(jié),我們依托騰訊優(yōu)圖自研的OCR大模型,實現(xiàn)了對復(fù)雜文檔的高精度解析。支持包括圖文混排在內(nèi)的復(fù)雜版式分析,能夠準確識別插圖、表格、公式、頁眉頁腳等超過26類文檔元素。
針對成本敏感、響應(yīng)速度有較高要求的場景,我們結(jié)合QQ瀏覽器多年的在移動端、PC端沉淀的工程解析優(yōu)化,創(chuàng)新地提供模型與工程相結(jié)合的解析策略,動態(tài)識別頁面復(fù)雜度——對于簡單頁面自動路由至高效工程化解析鏈路,保障精度的同時,整體解析耗時與資源成本優(yōu)化達40%。
對于存在合并單元格、填寫備注信息等不規(guī)則的數(shù)據(jù)表格,通過高精度表格解析能力,將原本非結(jié)構(gòu)化表格自動轉(zhuǎn)化為結(jié)構(gòu)化表格,提升不規(guī)則表格的解析準確率。
而在檢索環(huán)節(jié),引入基于Agent的Text2SQL能力,不僅能夠自動從大量數(shù)據(jù)表中精準篩選相關(guān)的表和字段,還能將復(fù)雜的業(yè)務(wù)問題智能拆解為多個子問題。支持通過外部工具執(zhí)行SQL,自主識別并優(yōu)化其中存在錯誤的查詢語句,提升應(yīng)答準確性。
在此,平臺通過提供連接企業(yè)數(shù)據(jù)庫的方式,可支持萬行以上大表的穩(wěn)定檢索與智能問答,真正實現(xiàn)對海量結(jié)構(gòu)化數(shù)據(jù)的價值挖掘。
在多模態(tài)場景中,用戶可能通過圖片提問,例如,在汽車客服助手的場景里,用戶可能截取一個設(shè)備圖片來詢問具體使用方式,要求智能體準確關(guān)聯(lián)用戶問題與文檔內(nèi)容,并給出精準回答。
為此,我們在數(shù)十億數(shù)據(jù)上訓(xùn)練得到性能優(yōu)異的中文CLIP模型, 提供不同尺寸支持,在不同數(shù)據(jù)集上均有優(yōu)異的表現(xiàn)。通過多模態(tài)檢索技術(shù),可根據(jù)用戶問題中的圖片或文本,快速定位知識庫中相關(guān)的圖文信息。最終,讓智能體能夠提供既準確又直觀的圖文并茂的答案。
GraphRAG,也是大模型應(yīng)對復(fù)雜領(lǐng)域知識問答的關(guān)鍵技術(shù)路徑之一,能顯著提升企業(yè)級智能體在深層語義理解與多步推理上的表現(xiàn)。
典型應(yīng)用場景包括:
1.多步推理與深度關(guān)聯(lián)分析,例如前面提到的“分析上述商戶之間的關(guān)聯(lián)風險與競爭關(guān)系”。
2.海量知識的結(jié)構(gòu)化整合,如“瀏覽器網(wǎng)頁標簽頁”。
3.不同知識庫之間的信息關(guān)聯(lián)與整合分析。
在企業(yè)落地中,仍面臨幾個關(guān)鍵挑戰(zhàn):
其一,依賴大語言模型構(gòu)建圖譜結(jié)構(gòu),Token消耗量大、處理時間長,成本高昂;
其二,效果瓶頸,復(fù)雜查詢的推理效果存在天花板;
其三,適配成本高,每適配一個新領(lǐng)域,遷移與迭代成本較高。
為此,背靠騰訊優(yōu)圖實驗室自研的GraphRAG能力,我們實現(xiàn)了構(gòu)圖成本的大幅優(yōu)化,讓企業(yè)級智能體面對復(fù)雜推理及結(jié)構(gòu)化任務(wù)時,顯著提升準確率。該能力目前已成功應(yīng)用于QQ瀏覽器等產(chǎn)品,并將上線騰訊云智能體開發(fā)平臺,為更多企業(yè)用戶提供開箱即用的圖檢索增強支持。
在這里,也為大家展示一個GraphRAG在QQ瀏覽器中的實際應(yīng)用案例:智能網(wǎng)頁標簽分類。
在未引入GraphRAG前,瀏覽器對網(wǎng)頁標簽的分類往往只能做到粗顆粒度,例如,將相關(guān)網(wǎng)頁簡單歸類為“體育賽事”。
而接入GraphRAG能力之后,能夠?qū)Α绑w育賽事”這類寬泛主題進行深層語義下鉆與拆解,生成如“足球賽事”“籃球名人堂”等更具象、更便于用戶管理的子類別,極大提升了網(wǎng)頁歸類效率與體驗。
除 RAG,Agent也是智能體開發(fā)平臺的核心能力。接下來我們看瀏覽器如何結(jié)合Agent能力來解決用戶日常的痛點。以下載場景為例:內(nèi)容找不到,信息獲取效率低;格式不對,找到也無法使用;操作繁瑣,效率低下。比如,用戶可能會提出這樣的請求:“請幫我下載幾篇初中地理教師資格證考試的資料”。常規(guī)我們需要網(wǎng)上搜索和不斷甄別網(wǎng)頁有效信息來查找,查找一兩個小時但不一定能找到。
剛才提到的下載案例背后反映了三大挑戰(zhàn):一是模型既要理解復(fù)雜指令,又要處理超長上下文;二是工具使用從簡單API演進到復(fù)雜的瀏覽器操作和多工具組合;三是記憶,企業(yè)級應(yīng)用需長時上下文,但token消耗巨大。除此之外,引入多Agent協(xié)作,也能進一步緩解落地難題。
我們先看大模型在Agent場景下的表現(xiàn)。傳統(tǒng)大模型只是在一輪問答中給出答案,而Agent應(yīng)用要求模型能主動拆解任務(wù)調(diào)用工具。為此我們做了兩方面優(yōu)化:一是強化工具調(diào)用。借助受限解碼,讓模型在復(fù)雜場景中能穩(wěn)定、百分之百輸出正確的Function-Call,調(diào)用工具完成任務(wù)。二是模型訓(xùn)練優(yōu)化。通過引入RL,在模型學(xué)會更精準地調(diào)用工具,提升任務(wù)完成率。比如下載場景,經(jīng)過訓(xùn)練后,模型能自動補全關(guān)鍵詞,直接篩選搜索PDF格式文件。這就是我們希望看到的變化:模型不僅能“回答問題”,更能真正“完成任務(wù)”。
工具越多功能越強,但在Agent世界里也可能變成“工具迷宮”。面對幾十個工具,Agent既要選得對,還要排得準,否則就會低效甚至誤判。以Browser Use為例,由打開網(wǎng)頁、點擊元素、搜索、滾動、下載等原子化工具組成,看似簡單,卻必須嚴格按順序組合調(diào)用才能完成任務(wù)。如何在這些原子化工具中精準決策、合理編排順序,正是工具挑戰(zhàn)的核心所在。
因此我們對重點工具進行了優(yōu)化。以檢索任務(wù)為例,打造了WideTool WebQA,能自動拆解搜索詞,并對結(jié)果摘要匯總,按需提供信息。借助這些優(yōu)化工具,Agent執(zhí)行效率顯著提升,任務(wù)可以完成得更快、更準。
接下來我們看記憶管理。Agent在復(fù)雜任務(wù)中,記憶往往是最大難點。以下載場景為例,一次任務(wù)可能要訪問幾十個網(wǎng)頁,單個網(wǎng)頁就有數(shù)萬甚至上百萬token,而Agent往往需跑幾十輪對話,累積上下文超過10萬token,遠超主流模型處理能力。沒有有效的記憶管理機制,Agent就會被龐大上下文拖垮。
為解決這一問題,我們提出了動態(tài)無損記憶壓縮。核心思路是在存儲時壓縮,但不丟關(guān)鍵細節(jié),需要時可原樣恢復(fù)。具體包括兩點:一是上下文壓縮,把歷史結(jié)果和工具調(diào)用總結(jié)為緊湊的記憶文件;二是文件級無損存儲,通過壓縮和分層掛載隨時恢復(fù)完整信息,保證結(jié)果可復(fù)現(xiàn)。實驗中我們將7萬token壓縮至約500token,效率提升141倍。有了這一機制,Agent才能真正具備長時記憶,支撐企業(yè)級復(fù)雜任務(wù)。
接下來我們看Single Agent到Multi-Agent的演進。剛才提到,模型、工具和記憶的復(fù)雜性,讓單Agent能力遇到瓶頸:一是多工具選擇帶來決策壓力;二是單體調(diào)試困難,任務(wù)過載難以拆解優(yōu)化;三是擴展性不足,能力邊界很快觸頂。為此我們引入Multi-Agent。在下載場景中,通過解耦協(xié)作,由總控Agent規(guī)劃分配任務(wù),專職Download Agent負責文件下載。這樣既降低了調(diào)試難度,也讓分工更清晰、效率更高。
Multi-Agent能突破單體局限,那具體如何協(xié)同呢?在ADP平臺上,除了自由轉(zhuǎn)交外,我們新增了兩種模式:一是工作流編排將Agent嵌入確定流程,適合環(huán)節(jié)固定的業(yè)務(wù);二是Plan-and-Execute模板,由Planner Agent統(tǒng)籌規(guī)劃,將任務(wù)拆解分配給執(zhí)行Agent(如搜索、代碼、總結(jié)、報告等),并結(jié)合共享記憶,提升協(xié)作有效性。企業(yè)可按場景靈活選擇,真正發(fā)揮Multi-Agent的優(yōu)勢。
以QQ瀏覽器AI下載助理為例,它能幫助用戶一鍵獲取資源。結(jié)合剛才介紹一系列能力能力,下載成功率提升26.8%(由40%升至66.82%)。過去像下載考試資料,需要用戶自行搜索、登錄并逐一下載,流程繁瑣;而現(xiàn)在只需輸入一句話,Agent就能自動檢索、核對并交付所需PDF文件。這些Agent實戰(zhàn)的能力,都沉淀到ADP平臺來。
在下載助理成功落地后,QQ瀏覽器將于10月中下旬推出訂閱助理Agent。它基于ADP的Agent框架,支持用戶用自然語言選擇網(wǎng)頁區(qū)域或主題,快速完成訂閱。無論是企業(yè)跟進行業(yè)報告、消費者獲取新品資訊,還是追星一族,都能通過訂閱助理實現(xiàn)高效、精準、個性化的訂閱體驗。
剛才我們介紹了智能體應(yīng)用開發(fā)引擎的RAG和Agent核心能力。但企業(yè)要真正開發(fā)好智能體,還需要生態(tài)支撐,把復(fù)雜開發(fā)變成生產(chǎn)化搭建。
我們的目標,是從模型、到工具、到提示詞模板,再到應(yīng)用模板,構(gòu)建一個完整的生態(tài),幫助企業(yè)快速落地應(yīng)用。
為滿足不同企業(yè)場景訴求,平臺提供模型廣場,不僅支持混元及優(yōu)圖精調(diào)等預(yù)置模型,也支持用戶通過API-Key接入第三方模型。在應(yīng)用開發(fā)階段,用戶可按需選擇模型,及進行對比調(diào)試。
同時,對于已在TI-ONE平臺擁有模型服務(wù)的用戶,只需要完成相應(yīng)授權(quán),就能把同賬號下的TI-ONE模型,直接同步到智能體開發(fā)平臺中使用。
在插件生態(tài)方面,平臺已上架超140個高質(zhì)量插件。我們按照行業(yè)×能力構(gòu)建插件地圖:縱向覆蓋金融、出行、醫(yī)療、教育等行業(yè),橫向涵蓋圖片識別、行業(yè)信息源、實用工具等能力,拓展企業(yè)級智能體應(yīng)用邊界。
此外,平臺提供近百個高質(zhì)量提示詞模板,覆蓋RAG、Workflow、Agent三大核心模式。以Multi-Agent為例,提供了任務(wù)分解與轉(zhuǎn)交的最佳寫法。幫助開發(fā)者直接復(fù)用成熟經(jīng)驗,高效構(gòu)建應(yīng)用。
在應(yīng)用模版方面,平臺提供覆蓋教育、傳媒、醫(yī)療、金融等多行業(yè)多場景的最佳實踐。如教育的科研文獻解讀,傳媒的播客生成,醫(yī)療的在線問診,金融的股票異動分析等。通過提供應(yīng)用開發(fā)要點,讓企業(yè)可快速實現(xiàn)從0到1的落地。
接下來我們進Agent Infra部分。要讓Agent真正落地企業(yè),光有模型不夠,還需要完整的生產(chǎn)流水線。我們從三方面保障:一是安全執(zhí)行環(huán)境,通過沙箱確保受控運行;二是可觀測與可運營,保證智能體運行可見可管;三是安全審查與合規(guī),多維度保障合規(guī)與可追溯。這些構(gòu)成了企業(yè)安心使用Agent的基礎(chǔ)設(shè)施。
在執(zhí)行環(huán)境層面,我們提供三類沙箱。代碼沙箱支持session級隔離與實時銷毀,保證代碼運行的安全;瀏覽器沙箱與QQ瀏覽器深度合作,打磨Agent原生的browser use工具能力;文件管理沙箱則支持與COS打通,支持多Agent共享文件。三類沙箱共同構(gòu)成了安全可控的執(zhí)行環(huán)境。
在可觀測性上,我們提供從應(yīng)用到對話的全鏈路監(jiān)控。應(yīng)用上線后,開發(fā)者不僅能查看整體運行數(shù)據(jù),還可下鉆到trace粒度,支持工作流節(jié)點級查看,幫助精準定位問題、持續(xù)優(yōu)化效果,確保智能體在大規(guī)模場景下的穩(wěn)定可靠。
同時,Agent Infra將騰訊云的底層能力深度融合進智能體開發(fā)平臺,并以插件的形式提供。像CLS日志管理、COS存儲、Lighthouse服務(wù)器、EdgeOne部署、CloudBase云開發(fā),這些騰訊云基礎(chǔ)設(shè)施能力,現(xiàn)在都能在智能體開發(fā)平臺內(nèi)直接調(diào)用,幫助企業(yè)打通應(yīng)用與底層云能力,高效落地。
在安全與合規(guī)層面,我們通過大模型安全網(wǎng)關(guān)抵御MCP帶來的多重安全威脅,包括注入攻擊、數(shù)據(jù)泄漏和惡意工具調(diào)用等。支持身份安全、工具安全、內(nèi)容安全和攻擊防護,幫助企業(yè)在規(guī)模化應(yīng)用中實現(xiàn)全方位的安全保障。
未來,騰訊也將圍繞客戶需求,持續(xù)打磨產(chǎn)品,為各行各業(yè)用好智能體提供助力!我的分享到此結(jié)束,謝謝大家!