其中,方法NFT-TM是指在BERT模型的上層添加復雜的網絡結構,在訓練時,固定BERT的參數,僅單獨訓練上層任務模型網絡。方法FT-NTM是指在在BERT模型后接一個簡單的特定任務層(如全連接網絡),在訓練時,根據任務的訓練樣本集對BERT進行fine-tune即可。

就以上NFT-TM、FT-NTM兩種方法,美國Allen人工智能研究所的Matthew Peter等人分別在ELMo及BERT兩種預訓練模型上對比了效果,希望能夠得出到底哪個方式更適合下游任務,他們針對7項NLP任務給出實驗結果。對于ELMo而言,使用上層網絡進行特征提取效果更好,對于BERT而言,fine-tune效果略勝一籌。最終該文得出結論,對于預訓練模型,fine-tune方法(即FT-NTM)能夠更好的將其應用于特定任務。

BERT的高級使用方式

以上兩種方法看上去有些片面,如果把特征抽取和fine-tune結合起來成為第三種模式,效果會怎樣呢?在BERT出現之前,就有人在訓練好語言模型之后,用后續(xù)網絡(如CNN,LSTM等)對詞嵌入進行微調的方法了。如果把預訓練模型看作是一個詞嵌入的強化版,那么在BERT時代,我們在追求其應用模式革新上也應該考慮到此方法,于是百分點認知智能實驗室提出融合特征抽取及fine-tune的方法FT-TM,其步驟如下:

1.在底層通過一個預訓練模型,先訓練一個可用的語言模型(視情況可停止訓練);

2.針對具體下游任務設計神經網絡結構,將其接在預訓練模型之后;

3.聯(lián)合訓練包括預訓練模型在內的整個神經網絡,以此模式嘗試進一步改善任務結果。

基于以上內容,我們對各種BERT應用方式選取了三個NLP典型任務進行實驗,并通過實踐證明,該方法在特定任務上均表現出色。

實驗一:針對序列標注任務,我們選擇了其子任務之一的命名實體識別任務(NER),并在NER的開源數據集CoNLL03上進行實驗。該實驗以僅對BERT進行fine-tune(即方法FT-NTM)的結果為baseline,對比了在BERT基礎上增加一個傳統(tǒng)用于NER任務的Bi-LSTM網絡(即方法FT-TM)的效果,其實驗結果如下圖所示:

由圖可得,結合BERT的fine-tune和上層神經網絡的FT-TM方法在該任務上的F1值較baseline提升了近7個百分點。

實驗二:針對文本分類任務,本次實驗選取雅虎問答分類數據集,以原始BERT結果作為baseline,對比了在其基礎上分別連接了HighwayLSTM和DenseNet網絡,并對其進行模型融合后的結果。實驗結果由下圖所示:

由實驗看出,雖然模型融合后的效果并不十分明顯,但也有一定的效果提升。

實驗三:針對語義等價性任務,本實驗選取包含了40萬個問題對的”Quora-Question-Pair”數據集,根據句子對進行相似度的計算。本次實驗將僅對BERT進行fine-tune的方法FT-NTM為baseline,對比了在BERT之后接BIMPM網絡的效果。同時以方法NFT-TM為baseline,對比了兩種改進BIMPM之后模型結構的效果(移除BIMPM中的第一層Bi-LSTM模型和將BIMPM的matching層與transformer相結合的模型)。注意,在模型訓練時有個重要的trick,考慮到預訓練模型本身的效果和其與頂層模型的融合問題,在訓練模型時,需要分兩步進行:先固定預訓練模型的參數,僅訓練其上層特定任務網絡,第二步再將整個網絡聯(lián)合訓練。

該任務的實驗結果如下圖所示:

由實驗結果可得,Bert+Sim-Transformer結合fine-tune Bert的效果相較僅對BERT進行fine-tune的方法FT-NTM,準確率提升了近5個百分點。

因此,從上面一系列的實驗結果可以看出,我們提出的結合上層復雜模型和fine-tune的方法FT-TM是有效的,并且在某些任務中優(yōu)于fine-tune的方式。同時在BERT預訓練模型上面集成的神經網絡模型好壞也會影響到最終的任務效果。

參考材料:

[1]Matthew Peters, Sebastian Ruder, and Noah A Smith. To tune or not to tune?adapting pretrained representations to diverse tasks. arXiv preprintarXiv:1903.05987, 2019.

論文地址:https://arxiv.org/abs/1907.05338

分享到

xiesc

相關推薦