本次競賽共設(shè)立五個(gè)任務(wù),包括機(jī)器閱讀理解、面向推薦的對話、語義解析、關(guān)系抽取和事件抽取,涉及到語言理解、人機(jī)對話、知識抽取等復(fù)雜技術(shù),這些任務(wù)的研究對于智能搜索、智能推薦、智能交互等人工智能應(yīng)用具有重要意義,是自然語言處理和人工智能領(lǐng)域的重要前沿課題。本次競賽的五個(gè)任務(wù)都將提供百度大規(guī)模中文數(shù)據(jù)集,為研究者提供學(xué)術(shù)交流平臺,推動語言理解和人工智能領(lǐng)域技術(shù)研究和應(yīng)用的發(fā)展。

三大經(jīng)典任務(wù)全面升級 覆蓋更多真實(shí)應(yīng)用場景

本次競賽中,機(jī)器閱讀理解、面向推薦的對話、關(guān)系抽取三大經(jīng)典任務(wù)在2019年的基礎(chǔ)上,做了全面升級。

機(jī)器閱讀理解是指讓機(jī)器閱讀文本然后回答和閱讀內(nèi)容相關(guān)的問題。與2019年相比,今年的閱讀理解任務(wù),將重點(diǎn)關(guān)注閱讀理解模型在真實(shí)應(yīng)用場景中的魯棒性。因此,在本次競賽中特別構(gòu)建了DuReader_robust數(shù)據(jù)集,用于考察模型在多個(gè)維度上的魯棒性,包括模型的過敏感性、過穩(wěn)定性以及泛化能力。數(shù)據(jù)集中的樣本均來自于實(shí)際的應(yīng)用場景,難度大,考察點(diǎn)豐富,覆蓋了真實(shí)應(yīng)用中諸多難以解決的問題。

面向推薦的對話則是指集成對話系統(tǒng)和推薦系統(tǒng)的人機(jī)交互系統(tǒng),該系統(tǒng)先通過問答或閑聊等形式收集用戶興趣和偏好,然后主動給用戶推薦其感興趣的內(nèi)容。真實(shí)世界的人機(jī)交互會同時(shí)涉及到多種類型的對話,如何自然的融合多類型對話是一個(gè)重要的挑戰(zhàn)。為了應(yīng)對這個(gè)挑戰(zhàn),本次競賽將提出一個(gè)新的任務(wù)—多類型對話中的面向推薦的對話,期望系統(tǒng)能夠主動且自然地將對話從非推薦對話引導(dǎo)到推薦對話,然后基于收集到的用戶興趣及用戶實(shí)時(shí)反饋,通過多次交互完成最終的推薦目標(biāo)。同時(shí),任務(wù)還將提供多種對話類型、多個(gè)領(lǐng)域、融合用戶profile信息的對話邏輯數(shù)據(jù)集,貼近真實(shí)的應(yīng)用場景。

關(guān)系抽取是指從自然語言文本中抽取實(shí)體及其之間的關(guān)系。本次競賽在去年信息抽取任務(wù)的基礎(chǔ)上進(jìn)行了兩處升級,一是在簡單SPO關(guān)系的基礎(chǔ)上增加了復(fù)雜關(guān)系類型,用以刻畫現(xiàn)實(shí)世界中廣泛存在的復(fù)雜關(guān)系;二是引入百度貼吧口語化表達(dá)語料,其文本語義自由度更高,更貼近日??谡Z表達(dá)習(xí)慣,使關(guān)系抽取評測任務(wù)具有更大的挑戰(zhàn)性和實(shí)戰(zhàn)應(yīng)用價(jià)值。

新增兩大熱門任務(wù) 為參賽者帶來全新挑戰(zhàn)

與往年競賽不同,除沿襲機(jī)器閱讀理解、面向推薦的對話、關(guān)系抽取三大任務(wù)外,還特別新增了語義解析與事件抽取兩大熱門任務(wù)。

語義解析任務(wù)旨在讓機(jī)器能自動將用戶輸入的自然語言問題轉(zhuǎn)成可與數(shù)據(jù)庫操作的編程語言(如SQL),以降低結(jié)構(gòu)化數(shù)據(jù)使用的門檻和成本,同時(shí)提升結(jié)構(gòu)化數(shù)據(jù)使用的價(jià)值和效率。當(dāng)前的中文Text-to-SQL數(shù)據(jù)集的數(shù)據(jù)庫基本都是由單表構(gòu)成的,問題模式比較簡單,僅覆蓋實(shí)際應(yīng)用中存在的部分問題。本次競賽將首次發(fā)布DuSQL數(shù)據(jù)集,包含164個(gè)領(lǐng)域的200個(gè)數(shù)據(jù)庫,覆蓋了匹配、計(jì)算、推理等實(shí)際應(yīng)用中常見的問題形式,每個(gè)問題關(guān)聯(lián)一個(gè)數(shù)據(jù)庫中一或多張表格。該數(shù)據(jù)集更貼近真實(shí)應(yīng)用場景,對模型解決領(lǐng)域無關(guān)性、問題無關(guān)性、計(jì)算推理問題的能力提出了更高的挑戰(zhàn)。

事件抽取一直受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,具有重要的實(shí)用價(jià)值,也極具挑戰(zhàn)。此次競賽中,該任務(wù)目標(biāo)是通過給定目標(biāo)事件類型和角色類型集合及句子,識別句子中所有目標(biāo)事件類型的事件,并根據(jù)論元角色集合抽取事件所對應(yīng)的論元。針對事件抽取任務(wù),百度將對外發(fā)布當(dāng)前業(yè)界最大規(guī)模的中文事件抽取數(shù)據(jù)集,其中包含65個(gè)事件類型和1.7萬個(gè)具有事件信息的句子。希望通過此次競賽及開放的大規(guī)模中文數(shù)據(jù)集,助力事件抽取技術(shù)的進(jìn)一步發(fā)展。

百度飛槳火力全開為參賽選手提供全面支持

作為本次競賽的承辦方,百度還將為參賽選手提供全面的技術(shù)資源及平臺支持。本次比賽中,百度將為5大競賽任務(wù)均提供基于飛槳PaddlePaddle基線系統(tǒng),助力選手快速上手。作為開源開放、功能完備的產(chǎn)業(yè)級深度學(xué)習(xí)平臺,飛槳具備開發(fā)便捷的核心框架、支持超大規(guī)模深度學(xué)習(xí)模型訓(xùn)練、多端多平臺部署的高性能推理引擎和產(chǎn)業(yè)級開源模型庫等領(lǐng)先技術(shù),鼓勵大家使用飛槳完成模型的設(shè)計(jì)、訓(xùn)練和預(yù)測。

不僅如此,百度AI Studio也將為本次比賽提供軟硬件環(huán)境的支持。AI Studio是基于飛槳平臺的一站式AI開發(fā)實(shí)訓(xùn)平臺,為參賽團(tuán)隊(duì)提供在線編程環(huán)境、Tesla V100 免費(fèi)GPU算力、海量開源算法和數(shù)據(jù)。登錄即送算力,每天登錄AI Studio并運(yùn)行Notebook即可獲得12小時(shí)算力,連續(xù)登錄5天額外領(lǐng)取48小時(shí)算力。AI Studio宣布將為報(bào)名參加2020語言與智能技術(shù)比賽的參賽團(tuán)隊(duì)額外提供免費(fèi)GPU算力時(shí)長,徹底破除算力桎梏,助力選手取得優(yōu)異成績。

據(jù)了解,2020語言與智能技術(shù)競賽將在2020年3月10日正式啟動競賽報(bào)名,并開放競賽平臺,發(fā)放樣例數(shù)據(jù),并于3月31日對報(bào)名者發(fā)放全部訓(xùn)練數(shù)據(jù)和第一批測試數(shù)據(jù)。競賽的每個(gè)任務(wù)都將分別評出一等獎1名,二等獎1名,三等獎1名和優(yōu)勝獎2名,主辦方中國中文信息學(xué)會(CIPS)和中國計(jì)算機(jī)學(xué)會(CCF)將為獲獎?wù)咛峁s譽(yù)證書認(rèn)證。同時(shí),百度公司將為獲獎?wù)咛峁┆劷鸷蛥眯匈澲?。更多競賽信息及?bào)名入口,可搜索2020語言與智能技術(shù)競賽官網(wǎng)(http://lic2020.cipsc.org.cn)進(jìn)入各任務(wù)詳情頁查看詳細(xì)內(nèi)容及報(bào)名比賽。

分享到

songjy

相關(guān)推薦