??(圖:CCKS?2020大會(huì)官網(wǎng))

針對(duì)性數(shù)據(jù)與模型設(shè)計(jì)?奪得NER任務(wù)冠軍

第十四屆全國(guó)知識(shí)圖譜與語義計(jì)算大會(huì)由中國(guó)中文信息學(xué)會(huì)語言與知識(shí)計(jì)算專業(yè)委員會(huì)主辦,已經(jīng)成為國(guó)內(nèi)知識(shí)圖譜、語義技術(shù)、鏈接數(shù)據(jù)等領(lǐng)域的核心學(xué)術(shù)會(huì)議,聚集了自然語言理解、知識(shí)獲取、智能問答、圖數(shù)據(jù)庫(kù)等相關(guān)技術(shù)領(lǐng)域的研究人員和學(xué)者。CCKS技術(shù)評(píng)測(cè)則旨在為研究人員提供測(cè)試知識(shí)圖譜與語義計(jì)算技術(shù)、算法、及系統(tǒng)的平臺(tái)和資源,促進(jìn)國(guó)內(nèi)知識(shí)圖譜領(lǐng)域的技術(shù)發(fā)展。針對(duì)此次大會(huì),CCKS?2020技術(shù)評(píng)測(cè)共設(shè)立8個(gè)相關(guān)主題評(píng)測(cè)任務(wù),包含新冠知識(shí)圖譜構(gòu)建與問答、面向中文電子病歷的醫(yī)療實(shí)體及事件抽取,面向試驗(yàn)鑒定的命名實(shí)體識(shí)別等,吸引了眾多知名企業(yè)和高校的踴躍參與。在面向試驗(yàn)鑒定的命名實(shí)體識(shí)別的主題評(píng)測(cè)任務(wù)中,騰訊天衍實(shí)驗(yàn)室奪得冠軍。

??(圖:面向試驗(yàn)鑒定的命名實(shí)體識(shí)別評(píng)測(cè)獲獎(jiǎng)名次)

何為命名實(shí)體識(shí)別?簡(jiǎn)言之,如何從海量的文本或網(wǎng)頁(yè)的原始數(shù)據(jù)中提取有價(jià)值的信息是行業(yè)知識(shí)圖譜構(gòu)建的關(guān)鍵因素,信息抽取(Information?Extraction,IE)作為自然語言處理技術(shù)的任務(wù),重點(diǎn)在于從機(jī)器可讀取的非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本中抽取信息,而命名實(shí)體識(shí)別(NER)則是IE任務(wù)的核心和基礎(chǔ)技術(shù),旨在從文本中查找每個(gè)提及的命名實(shí)體并標(biāo)記其類型。相比于通用領(lǐng)域NER任務(wù),此次競(jìng)賽任務(wù)由于試驗(yàn)?zāi)康牟煌?、被試?duì)象有著自身較為特殊的語言形式,對(duì)NER任務(wù)帶來了全新的挑戰(zhàn):一方面,試驗(yàn)鑒定領(lǐng)域的可用標(biāo)注語料稀少,訓(xùn)練集只有400條;另一方面,實(shí)體類別間語義復(fù)雜度較高,需要依賴專業(yè)領(lǐng)域知識(shí)和準(zhǔn)確的上下文理解。

針對(duì)此次實(shí)體識(shí)別任務(wù),騰訊天衍實(shí)驗(yàn)室全面識(shí)別任務(wù)特點(diǎn),從數(shù)據(jù)和模型層面進(jìn)行針對(duì)性的設(shè)計(jì)。首先,針對(duì)訓(xùn)練數(shù)據(jù)樣本較少且樣本序列長(zhǎng)度較長(zhǎng)的問題設(shè)計(jì)了一種基于動(dòng)態(tài)規(guī)劃的文本分割方法,將較長(zhǎng)樣本分割為多個(gè)樣本,同時(shí)在切割時(shí)使得保留最多原始文本信息的前提下冗余數(shù)據(jù)最少。其次,在模型層面上,基于樣本上下文依賴較強(qiáng)且位置關(guān)系明顯的特點(diǎn),在輸入層把領(lǐng)域分詞信息融合到模型中,并且針對(duì)性的選取TENER、RTransfomer作為編碼器;編碼器的輸出結(jié)合CRF做實(shí)體的序列標(biāo)注,針對(duì)模型輸出的結(jié)果進(jìn)行融合和詞典矯正,最終結(jié)果為F值0.72128,奪得該賽道冠軍。

持續(xù)創(chuàng)新輸出技術(shù)實(shí)力?加速醫(yī)療科研領(lǐng)域落地應(yīng)用

獲此成績(jī)非一朝一夕,在此之前,騰訊天衍實(shí)驗(yàn)室就在日常的業(yè)務(wù)中把實(shí)驗(yàn)室長(zhǎng)期積累的相關(guān)技術(shù)落地到醫(yī)療領(lǐng)域的多個(gè)場(chǎng)景中,并且在實(shí)踐應(yīng)用中進(jìn)一步夯實(shí)技術(shù)實(shí)力。

比如疫情期間,騰訊天衍實(shí)驗(yàn)室基于騰訊健康小程序推出的患者同小區(qū)查詢助手極大的方便了用戶查詢同小區(qū)患者信息,疫情智能問答助手則可以7*24小時(shí)解答用戶關(guān)于疫情的相關(guān)問題助力公眾科學(xué)防疫抗疫,累積服務(wù)用戶2000萬查詢?nèi)舜?。兩個(gè)智能助手應(yīng)用到的核心技術(shù)之一就是NER技術(shù),通過NER技術(shù)從無結(jié)構(gòu)化文本中抽取相關(guān)實(shí)體并結(jié)合關(guān)系分類快速構(gòu)建精準(zhǔn)圖譜,從而支撐上層各項(xiàng)智能化應(yīng)用。

具體來說,患者同小區(qū)查詢助手,主要利用NER技術(shù)從官方公布的患者信息文件中抽取出關(guān)鍵實(shí)體并構(gòu)建患者畫像圖譜,從而實(shí)現(xiàn)患者同小區(qū)智能查詢的各項(xiàng)功能。對(duì)于疫情問答工具,則主要基于衛(wèi)健委、醫(yī)院等公布的文檔,利用NER技術(shù)從中抽取治療、診斷、藥物、地區(qū)等相關(guān)實(shí)體,基于這些實(shí)體快速構(gòu)建新冠肺炎相關(guān)的知識(shí)圖譜,利用知識(shí)圖譜支撐用戶問答服務(wù),從而提高問答的準(zhǔn)確性和智能性。

??NER為核心技術(shù)的疫情工具圖譜構(gòu)建流程

騰訊天衍實(shí)驗(yàn)室致力于長(zhǎng)期在自然語言基礎(chǔ)能力、語言理解、信息抽取、知識(shí)圖譜構(gòu)建等進(jìn)行研究創(chuàng)新,并將成果運(yùn)用到落地的醫(yī)療自然語言等場(chǎng)景,目前已構(gòu)建醫(yī)療行業(yè)大規(guī)模知識(shí)圖譜,支持了數(shù)百家醫(yī)院的輔診、導(dǎo)診、疾病輔助診斷、智能用藥等產(chǎn)品,助力醫(yī)保、醫(yī)院、疾控中心和其他醫(yī)療機(jī)構(gòu)的智能化知識(shí)挖掘和管理難題,實(shí)現(xiàn)知識(shí)化轉(zhuǎn)型。

在醫(yī)療健康領(lǐng)域,騰訊天衍實(shí)驗(yàn)室專注于AI算法研究及落地,旨在依托NLP、知識(shí)圖譜、大數(shù)據(jù)、醫(yī)療影像等技術(shù)系統(tǒng),將算法能力輸出到騰訊健康小程序、QQ瀏覽器、微信搜一搜等終端應(yīng)用。與此同時(shí),騰訊天衍實(shí)驗(yàn)室還與鐘南山院士以及復(fù)旦腫瘤醫(yī)院等頭部醫(yī)院建立聯(lián)合實(shí)驗(yàn)室,與牛津大學(xué)、蒙特利爾大學(xué)、天津大學(xué)、微眾銀行AI部門等單位建立長(zhǎng)期科研合作關(guān)系,目前已發(fā)表包括NIPS、KDD等多篇頂級(jí)學(xué)術(shù)論文,通過聯(lián)合社會(huì)各界進(jìn)行技術(shù)深入研究,騰訊天衍實(shí)驗(yàn)室將進(jìn)一步加速科研應(yīng)用落地,以服務(wù)于臨床應(yīng)用。

分享到

zhangnn

相關(guān)推薦