BIRD-Bench是公認的全球最具權(quán)威性的自然語言轉(zhuǎn)SQL評測基準,要求AI大模型將自然語言查詢轉(zhuǎn)換為結(jié)構(gòu)化查詢語言(SQL),并且在真實復(fù)雜的大規(guī)模生產(chǎn)級數(shù)據(jù)庫中穩(wěn)定執(zhí)行。BIRD–Bench數(shù)據(jù)集覆蓋金融、電力、醫(yī)療等37個行業(yè)場景,總量33GB,包含超過1萬條高復(fù)雜度查詢?nèi)蝿?wù),是全球頂級AI團隊展示技術(shù)實力的權(quán)威平臺。

值得一提的是,螞蟻數(shù)科Agentar-SQL在BIRD榜單的執(zhí)行準確率排行榜(81.67分)以及執(zhí)行效率榜上(77分)上均取得第一的成績。這意味著螞蟻數(shù)科在智能問數(shù)領(lǐng)域的技術(shù)創(chuàng)新實現(xiàn)全球領(lǐng)先。

據(jù)介紹,Agentar-SQL智能體基于螞蟻數(shù)科的SQL大模型Agentar-Scale-SQL構(gòu)建,旨在讓用戶可以通過自然語言輕松完成復(fù)雜的數(shù)據(jù)查詢?nèi)蝿?wù)。它通過GSPO(組序列策略優(yōu)化)強化學習訓練方法,能夠增強SQL內(nèi)在推理,讓大模型在推理階段,深度思考SQL框架,避免潛在的邏輯錯誤,提升SQL邏輯準確性;此外,Agentar-SQL具備多輪反思修正的能力,讓模型對生成的SQL進行多輪次的審視和修正,提升SQL語言的精準性;Agentar-SQL還通過獨創(chuàng)的兩階段生成法,讓大模型生成多個SQL候選,再對SQL進行兩兩PK的“錦標賽”,篩選出最優(yōu)的SQL。

螞蟻數(shù)科持續(xù)深耕AI大模型技術(shù)與應(yīng)用,此前其自研的金融推理大模型Agentar-Fin-R1,在多項主流金融基準測試實現(xiàn)領(lǐng)先。專為新能源行業(yè)定制的能源電力垂類時序大模型在行業(yè)評測集上的發(fā)電量預(yù)測準確率超越谷歌(TimesFM-V2.0)、亞馬遜(Chronos-Large)等行業(yè)主流的通用時序模型。

分享到

xiesc

相關(guān)推薦