作為該領域”最接近真實企業(yè)場景”評測集,Spider 2.0基于 632 個真實企業(yè)數(shù)據(jù)庫工作流問題構(gòu)建,覆蓋金融、醫(yī)療、電商等 18 個垂直領域,并全面考察NL2SQL產(chǎn)品的多表關聯(lián)、長上下文理解、復雜邏輯推理等能力,也是檢驗NL2SQL產(chǎn)品商業(yè)化能力的重要標準。
測試結(jié)果顯示,阿里云研發(fā)NL2SQL Agent——DB-Surfer以59.78% 的執(zhí)行準確率斬獲冠軍,超越了國內(nèi)外多個基于商業(yè)大模型的Agent方法,并顯著優(yōu)于基于固定工作流的 ReFoRCE (37.11%) 和基線智能體方法 Spider-Agent (31.08%)。
據(jù)介紹,為滿足超大規(guī)模、高復雜度的數(shù)據(jù)庫查詢?nèi)蝿招枨螅⒗镌艱B-Surfer設計了查詢意圖預處理、代碼智能體執(zhí)行和多源路徑后處理三個模塊,通過“先規(guī)劃、后執(zhí)行”的機制顯著提升了Agent查詢和處理的效率,可以更好地解決數(shù)據(jù)庫結(jié)構(gòu)復雜、SQL方言多樣、查詢邏輯深度嵌套等難題。
該范式還支持集成多樣化的外部工具,并自主學習海量新知識,可進一步推動NL2SQL技術(shù)從單一的查詢生成工具,向更具挑戰(zhàn)性的、能在開放場景下泛化的數(shù)據(jù)分析助手演進。
DataWorks Copilot – Agent 模式演示
目前,DB-Surfer已深度集成至阿里云大數(shù)據(jù)開發(fā)治理平臺DataWorks的Copilot,并廣泛應用于游戲、在線教育、零售、文化傳媒和金融等領域企業(yè),數(shù)據(jù)開發(fā)分析效率平均提升35%。