圖1.優(yōu)酷視頻標題數(shù)據(jù)集樣例
“實體漏標”樣本數(shù)據(jù)如下:
圖2. 不完全標注數(shù)據(jù)樣例
三、“不完全標注問題”主流解決方案
目前針對“未標注實體問題”的解決方案大致分為以下幾種:
①AutoNER + Fuzzy CRF:通過自動抽取短語回標訓練集[1];
②AutoNER + 自訓練:通過多輪迭代偽標簽進行自訓練,達到自動降噪的目的[2];
③positive-unlabeled(PU)learning:為每個標簽構(gòu)建不同的二分類器,從而減輕噪聲數(shù)據(jù)的影響[3];
④Partial CRF:拓展改進CRF,使其可以繞過未標注實體進行訓練[4]。
上述各類解決方案存在如下的一些缺陷:
方案①依賴于遠程監(jiān)督的質(zhì)量,因而從本質(zhì)上來講,未標注實體問題仍然存在;方案②的多輪迭代自訓練過程計算非常耗時;方案③中雖然為不同標簽單獨劃分了數(shù)據(jù),但是未標注的實體仍然會影響相應實體類型的分類器;方案④中在繞過未標注實體的同時,忽略了負樣本的作用,只適用于含有非常少量漏標實體的高質(zhì)量數(shù)據(jù)集。
四、技術(shù)方案
本次比賽我們使用的技術(shù)包括Classifier-stacking、Word-merging Representation、PredictionMajority Voting (PMV)等,下面將會逐一介紹。
在我們的技術(shù)方案中,Classifier-stacking算法被用來作為基礎組件對數(shù)據(jù)集進行交叉推斷,實現(xiàn)數(shù)據(jù)集的“修復”。并且我們?nèi)诤狭硕喾N特定領域的預訓練詞向量來讓我們的實體邊界識別更加精準。同時我們在不同的預訓練模型上進行對比實驗,找出與任務最匹配的預訓練模型,最終在集成學習的幫助下,將模型的潛力發(fā)揮到最大。
我們的技術(shù)方案相較于上一節(jié)提到的四大主流方案在以下幾方面有了改進。一是采用Classifier-stacking算法將未標注實體問題從數(shù)據(jù)層面轉(zhuǎn)移到算法層面,能減輕模型對高質(zhì)量數(shù)據(jù)集的依賴性;二是針對性地使用特定領域預訓練詞向量對實體邊界進行了一定的約束,改善了實體抽取的完整度。三是就比賽而言,我們用實驗充分對比了不同預訓練模型在當前數(shù)據(jù)集的表現(xiàn)異同,使我們的算法效果在本次比賽的具體場景下得到更大的發(fā)揮。
4.1 構(gòu)造不完全數(shù)據(jù)集的方法探討
對于不完全標注數(shù)據(jù)集的構(gòu)造,大致可以分為三種:
①從完整標注語料隨機去除一定量word_level的標注;
②從完整標注語料隨機去除一定量span_level的標注;
③從完整標注語料隨機去除一定量span_level的標注,并將所有O標簽也去除。
其中,word_level是指任意的“多字片段”,span_level 則是指的某個完整實體片段,具體含義可參考下圖樣例。
從實際應用場景來看,第3種做法更符合標注人員漏標場景的真實樣本,因為首先大部分情況下的標注遺漏都會發(fā)生在實體層面,而非字的層面,因而第1種做法并不妥當;其次,在真實標注場景下,我們會將所有未被標注人員作為實體標注出來的Token,統(tǒng)一作為O標簽處理,因此對于O標簽和遺漏實體,我們無法將其區(qū)分開來,所以方法2也不符合真實的不完全標注樣本“生產(chǎn)”場景。
數(shù)據(jù)樣例如下圖所示,其中A.1、A.2、A.3分別為如上所述的三種數(shù)據(jù)構(gòu)造方法:
圖3. 構(gòu)造不完整標注的數(shù)據(jù)方法
4.2 Classifier-stacking算法流程及要點
訓練集通過K-Fold交叉驗證的形式,K-1與K-2分別訓練標注模型進行交叉推斷來“修復”數(shù)據(jù)集,然后用“修復”后的訓練集訓練出final模型,不斷迭代上述過程,直到驗證集效果達標。
圖4.Classifier-stacking算法流程圖
在構(gòu)造Loss函數(shù)時,我們在CRF loss函數(shù)的基礎上進行改造,對于不完整標注的序列,應當給予所有可能的完整序列一個可訓練權(quán)重矩陣q,如下圖所示:
圖5 不同的Loss構(gòu)造方法
相較于原生CRF損失函數(shù),以及平均分配權(quán)重的Uniform 損失函數(shù),可訓練權(quán)重的做法使得模型在每次迭代訓練中對每個標記為O的Token的候選標簽給予不同的“關注度”,從而使數(shù)據(jù)的“修復過程”更快且更精準地完成。
對于以上幾種不同Loss函數(shù)的標簽權(quán)重可視化示意如下,顏色的深淺示意了權(quán)重的分布情況。
圖6. Loss函數(shù)中可訓練權(quán)重的可視化示意圖
4.3 Word-merging Representation 方法的應用
預訓練詞向量[5,6]是許多神經(jīng)語言模型中的標準組件,在命名實體識別中,引入詞匯信息是提升中文NER指標的重要手段。引入詞匯信息可以強化實體邊界,特別是對于span較長的實體邊界更加有效,并且也是一種數(shù)據(jù)增強的方式,引入詞匯信息的增強方式對于小樣本下的中文NER增益明顯。
本次比賽我們從[7]獲得具有不同性質(zhì)的預訓練向量來進行我們的實驗,實驗中采用了基于Skip-Gramwith Negative Sampling (SGNS)技術(shù)訓練的詞向量,如下表所示。具體做法是將Transformer-model的輸出H通過詞匯融合層,做一次詞匯增強表征。我們利用中文分詞工具和詞向量表征來獲取每個樣本的不同詞匯層特征,并將得到的詞匯特征對齊融入到原本的字符特征中,然后輸入到線性層進行標簽路徑的映射。最后通過CRF學習標簽路徑的約束進一步提升模型的預測效果。
表1. Word2vec / Skip-Gram with Negative Sampling (SGNS)
[1] The dimension of the Chinese Word Vectors is 300.
4.4 Prediction Majority Voting (PMV) 投票法的應用
在模型的預測階段,我們采用了Prediction Majority Voting (PMV) 投票法進行實體擇優(yōu)推斷。我們嘗試了兩種不同的組合方式來利用多模型的輸出,第一種方法很簡單,對于k個模型,每個模型為句子中的每個單詞中分配候選標簽,并在所有k種預測結(jié)果中,選擇獲得多數(shù)票最多的實體作為最終預測輸出。另一種方法是對于每一個Token,將各個模型預測結(jié)果取平均值,得到唯一的標簽序列輸出。實驗表明,在本次任務中,前一種策略相對而言對實體邊界的查準率更高。
4.5 不同預訓練模型的表現(xiàn)效果研究
下表展示了我們利用不同預訓練模型進行實驗的效果對比,作為選取合適的預訓練模型的參考依據(jù)。
從結(jié)果可以看出BERT-wwm模型的效果最差,顯著低于使用更多預訓練數(shù)據(jù)的BERT-wwm-ext模型。說明模型訓練數(shù)據(jù)量大小直接影響了實體抽取的效果。從精確性、召回率和F1來看,RoBERTa -wwm-ext模型都要顯著高于其他模型。
鑒于預訓練模型在體系結(jié)構(gòu)和訓練數(shù)據(jù)上的差異,我們可以通過結(jié)果做如下推測:首先,使用更多數(shù)據(jù)進行預訓練,可能有助于提高模型性能。這可以解釋為什么BERT-wwm-ext模型(訓練數(shù)據(jù)為5.4B Token)比BERT-wwm模型(訓練數(shù)據(jù)為0.4B Token)具有更好的性能。其次,去掉下一句預測任務(NSP)和增加訓練步數(shù)(1M步)的策略,導致RoBERTa-wwm ext模型性能具有顯著優(yōu)勢,因為RoBERTa-wwm ext模型和BERT-wwm ext模型都是在包含大約54億個Token的Wikipedia文本和擴展數(shù)據(jù)標記上訓練的。
表2.預訓練模型的影響評估實驗
為了比較這些預訓練模型對訓練集尺度變化的魯棒性,我們進一步研究了在訓練集尺度從2000個樣本到10000個樣本變化時,開發(fā)集上的性能曲線??傮w趨勢如下圖所示。結(jié)果表明,訓練集規(guī)模的減小對RoBERTa-wwm-ext模型的影響最小,也即在小樣本數(shù)據(jù)集的場景下,我們傾向于選擇表現(xiàn)更好的RoBERTa-wwm-ext模型來作為我們的預訓練模型。
圖7. 預訓練模型對訓練數(shù)據(jù)集規(guī)模的魯棒性研究實驗
五、評測結(jié)果
通過對本次比賽采用數(shù)據(jù)集的類型分析,我們選用了基于Weibo和Sougou News預料訓練的詞向量進行融合實驗,實驗結(jié)果如下表所示。在開發(fā)集上使用了Sougou News詞向量的模型表現(xiàn)更優(yōu)。
表3.詞向量融合表征實驗
我們在最終測試集上使用了k-fold(k=10)交叉驗證,并利用10個基本模型進行特定策略的PMV投票,在NLPCC-2020 AutoIE排行榜上提交的最終結(jié)果F1為84.75。
表4.模型集成學習實驗
總結(jié)
本次比賽是在解決不完全數(shù)據(jù)集NER的難題上的一次嘗試,我們在Classifier-stacking技術(shù)路徑之上,融合了特定領域詞向量表征和Prediction Majority Voting (PMV)等方法,為解決不完整標注數(shù)據(jù)場景下的信息抽取難題提供了有效且易于實施的解決方案。在信息抽取領域,本方案能夠在一定程度上緩解監(jiān)督模型對高質(zhì)量標注數(shù)據(jù)的依賴,使得信息抽取更易于在工業(yè)界落地實施。
參考資料
[1] Shang J , Liu L , Gu X , et al.Learning Named Entity Tagger using Domain-Specific Dictionary[C]// Proceedingsof the 2018 Conference on Empirical Methods in Natural Language Processing.2018.
[2] Jie Z , Xie P , Lu W , et al.Better Modeling of Incomplete Annotations for Named Entity Recognition[C]//2019 Annual Conference of the North American Chapter of the Association forComputational Linguistics (NAACL). 2019.
[3] Peng M , Xing X , Zhang Q , etal. Distantly Supervised Named Entity Recognition using Positive-UnlabeledLearning[J]. 2019.
[4] Nooralahzadeh F , Lnning J T ,Vrelid L . Reinforcement-based denoising of distantly supervised NER withpartial annotation[C]// Proceedings of the 2nd Workshop on Deep LearningApproaches for Low-Resource NLP (DeepLo 2019). 2019.
[5] Tomas Mikolov, Ilya Sutskever,Kai Chen, Greg S Corrado, and Jeff Dean. 2013. Distributed representations ofwords and phrases and their compositionality. In NIPS.
[6] Jeffrey Pennington, RichardSocher, and Christopher D. Manning. 2014. Glove: Global vectors forwordrepresentation. In EMNLP.
[7]?Shen Li, Zhe Zhao, Renfen Hu,Wensi Li, Tao Liu, Xiaoyong Du. 2018. Analogical Reasoning on ChineseMorphological and Semantic Relations. In ACL.
【來源:百分點】