其中,方法NFT-TM是指在BERT模型的上層添加復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),在訓(xùn)練時,固定BERT的參數(shù),僅單獨訓(xùn)練上層任務(wù)模型網(wǎng)絡(luò)。方法FT-NTM是指在在BERT模型后接一個簡單的特定任務(wù)層(如全連接網(wǎng)絡(luò)),在訓(xùn)練時,根據(jù)任務(wù)的訓(xùn)練樣本集對BERT進行fine-tune即可。
就以上NFT-TM、FT-NTM兩種方法,美國Allen人工智能研究所的Matthew Peter等人分別在ELMo及BERT兩種預(yù)訓(xùn)練模型上對比了效果,希望能夠得出到底哪個方式更適合下游任務(wù),他們針對7項NLP任務(wù)給出實驗結(jié)果。對于ELMo而言,使用上層網(wǎng)絡(luò)進行特征提取效果更好,對于BERT而言,fine-tune效果略勝一籌。最終該文得出結(jié)論,對于預(yù)訓(xùn)練模型,fine-tune方法(即FT-NTM)能夠更好的將其應(yīng)用于特定任務(wù)。
BERT的高級使用方式
以上兩種方法看上去有些片面,如果把特征抽取和fine-tune結(jié)合起來成為第三種模式,效果會怎樣呢?在BERT出現(xiàn)之前,就有人在訓(xùn)練好語言模型之后,用后續(xù)網(wǎng)絡(luò)(如CNN,LSTM等)對詞嵌入進行微調(diào)的方法了。如果把預(yù)訓(xùn)練模型看作是一個詞嵌入的強化版,那么在BERT時代,我們在追求其應(yīng)用模式革新上也應(yīng)該考慮到此方法,于是百分點認知智能實驗室提出融合特征抽取及fine-tune的方法FT-TM,其步驟如下:
1.在底層通過一個預(yù)訓(xùn)練模型,先訓(xùn)練一個可用的語言模型(視情況可停止訓(xùn)練);
2.針對具體下游任務(wù)設(shè)計神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),將其接在預(yù)訓(xùn)練模型之后;
3.聯(lián)合訓(xùn)練包括預(yù)訓(xùn)練模型在內(nèi)的整個神經(jīng)網(wǎng)絡(luò),以此模式嘗試進一步改善任務(wù)結(jié)果。
基于以上內(nèi)容,我們對各種BERT應(yīng)用方式選取了三個NLP典型任務(wù)進行實驗,并通過實踐證明,該方法在特定任務(wù)上均表現(xiàn)出色。
實驗一:針對序列標注任務(wù),我們選擇了其子任務(wù)之一的命名實體識別任務(wù)(NER),并在NER的開源數(shù)據(jù)集CoNLL03上進行實驗。該實驗以僅對BERT進行fine-tune(即方法FT-NTM)的結(jié)果為baseline,對比了在BERT基礎(chǔ)上增加一個傳統(tǒng)用于NER任務(wù)的Bi-LSTM網(wǎng)絡(luò)(即方法FT-TM)的效果,其實驗結(jié)果如下圖所示:
由圖可得,結(jié)合BERT的fine-tune和上層神經(jīng)網(wǎng)絡(luò)的FT-TM方法在該任務(wù)上的F1值較baseline提升了近7個百分點。
實驗二:針對文本分類任務(wù),本次實驗選取雅虎問答分類數(shù)據(jù)集,以原始BERT結(jié)果作為baseline,對比了在其基礎(chǔ)上分別連接了HighwayLSTM和DenseNet網(wǎng)絡(luò),并對其進行模型融合后的結(jié)果。實驗結(jié)果由下圖所示:
由實驗看出,雖然模型融合后的效果并不十分明顯,但也有一定的效果提升。
實驗三:針對語義等價性任務(wù),本實驗選取包含了40萬個問題對的”Quora-Question-Pair”數(shù)據(jù)集,根據(jù)句子對進行相似度的計算。本次實驗將僅對BERT進行fine-tune的方法FT-NTM為baseline,對比了在BERT之后接BIMPM網(wǎng)絡(luò)的效果。同時以方法NFT-TM為baseline,對比了兩種改進BIMPM之后模型結(jié)構(gòu)的效果(移除BIMPM中的第一層Bi-LSTM模型和將BIMPM的matching層與transformer相結(jié)合的模型)。注意,在模型訓(xùn)練時有個重要的trick,考慮到預(yù)訓(xùn)練模型本身的效果和其與頂層模型的融合問題,在訓(xùn)練模型時,需要分兩步進行:先固定預(yù)訓(xùn)練模型的參數(shù),僅訓(xùn)練其上層特定任務(wù)網(wǎng)絡(luò),第二步再將整個網(wǎng)絡(luò)聯(lián)合訓(xùn)練。
該任務(wù)的實驗結(jié)果如下圖所示:
由實驗結(jié)果可得,Bert+Sim-Transformer結(jié)合fine-tune Bert的效果相較僅對BERT進行fine-tune的方法FT-NTM,準確率提升了近5個百分點。
因此,從上面一系列的實驗結(jié)果可以看出,我們提出的結(jié)合上層復(fù)雜模型和fine-tune的方法FT-TM是有效的,并且在某些任務(wù)中優(yōu)于fine-tune的方式。同時在BERT預(yù)訓(xùn)練模型上面集成的神經(jīng)網(wǎng)絡(luò)模型好壞也會影響到最終的任務(wù)效果。
參考材料:
[1]Matthew Peters, Sebastian Ruder, and Noah A Smith. To tune or not to tune?adapting pretrained representations to diverse tasks. arXiv preprintarXiv:1903.05987, 2019.
論文地址:https://arxiv.org/abs/1907.05338