其中,方法NFT-TM是指在BERT模型的上層添加復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),在訓(xùn)練時(shí),固定BERT的參數(shù),僅單獨(dú)訓(xùn)練上層任務(wù)模型網(wǎng)絡(luò)。方法FT-NTM是指在在BERT模型后接一個(gè)簡單的特定任務(wù)層(如全連接網(wǎng)絡(luò)),在訓(xùn)練時(shí),根據(jù)任務(wù)的訓(xùn)練樣本集對(duì)BERT進(jìn)行fine-tune即可。

就以上NFT-TM、FT-NTM兩種方法,美國Allen人工智能研究所的Matthew Peter等人分別在ELMo及BERT兩種預(yù)訓(xùn)練模型上對(duì)比了效果,希望能夠得出到底哪個(gè)方式更適合下游任務(wù),他們針對(duì)7項(xiàng)NLP任務(wù)給出實(shí)驗(yàn)結(jié)果。對(duì)于ELMo而言,使用上層網(wǎng)絡(luò)進(jìn)行特征提取效果更好,對(duì)于BERT而言,fine-tune效果略勝一籌。最終該文得出結(jié)論,對(duì)于預(yù)訓(xùn)練模型,fine-tune方法(即FT-NTM)能夠更好的將其應(yīng)用于特定任務(wù)。

BERT的高級(jí)使用方式

以上兩種方法看上去有些片面,如果把特征抽取和fine-tune結(jié)合起來成為第三種模式,效果會(huì)怎樣呢?在BERT出現(xiàn)之前,就有人在訓(xùn)練好語言模型之后,用后續(xù)網(wǎng)絡(luò)(如CNN,LSTM等)對(duì)詞嵌入進(jìn)行微調(diào)的方法了。如果把預(yù)訓(xùn)練模型看作是一個(gè)詞嵌入的強(qiáng)化版,那么在BERT時(shí)代,我們?cè)谧非笃鋺?yīng)用模式革新上也應(yīng)該考慮到此方法,于是百分點(diǎn)認(rèn)知智能實(shí)驗(yàn)室提出融合特征抽取及fine-tune的方法FT-TM,其步驟如下:

1.在底層通過一個(gè)預(yù)訓(xùn)練模型,先訓(xùn)練一個(gè)可用的語言模型(視情況可停止訓(xùn)練);

2.針對(duì)具體下游任務(wù)設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),將其接在預(yù)訓(xùn)練模型之后;

3.聯(lián)合訓(xùn)練包括預(yù)訓(xùn)練模型在內(nèi)的整個(gè)神經(jīng)網(wǎng)絡(luò),以此模式嘗試進(jìn)一步改善任務(wù)結(jié)果。

基于以上內(nèi)容,我們對(duì)各種BERT應(yīng)用方式選取了三個(gè)NLP典型任務(wù)進(jìn)行實(shí)驗(yàn),并通過實(shí)踐證明,該方法在特定任務(wù)上均表現(xiàn)出色。

實(shí)驗(yàn)一:針對(duì)序列標(biāo)注任務(wù),我們選擇了其子任務(wù)之一的命名實(shí)體識(shí)別任務(wù)(NER),并在NER的開源數(shù)據(jù)集CoNLL03上進(jìn)行實(shí)驗(yàn)。該實(shí)驗(yàn)以僅對(duì)BERT進(jìn)行fine-tune(即方法FT-NTM)的結(jié)果為baseline,對(duì)比了在BERT基礎(chǔ)上增加一個(gè)傳統(tǒng)用于NER任務(wù)的Bi-LSTM網(wǎng)絡(luò)(即方法FT-TM)的效果,其實(shí)驗(yàn)結(jié)果如下圖所示:

由圖可得,結(jié)合BERT的fine-tune和上層神經(jīng)網(wǎng)絡(luò)的FT-TM方法在該任務(wù)上的F1值較baseline提升了近7個(gè)百分點(diǎn)。

實(shí)驗(yàn)二:針對(duì)文本分類任務(wù),本次實(shí)驗(yàn)選取雅虎問答分類數(shù)據(jù)集,以原始BERT結(jié)果作為baseline,對(duì)比了在其基礎(chǔ)上分別連接了HighwayLSTM和DenseNet網(wǎng)絡(luò),并對(duì)其進(jìn)行模型融合后的結(jié)果。實(shí)驗(yàn)結(jié)果由下圖所示:

由實(shí)驗(yàn)看出,雖然模型融合后的效果并不十分明顯,但也有一定的效果提升。

實(shí)驗(yàn)三:針對(duì)語義等價(jià)性任務(wù),本實(shí)驗(yàn)選取包含了40萬個(gè)問題對(duì)的”Quora-Question-Pair”數(shù)據(jù)集,根據(jù)句子對(duì)進(jìn)行相似度的計(jì)算。本次實(shí)驗(yàn)將僅對(duì)BERT進(jìn)行fine-tune的方法FT-NTM為baseline,對(duì)比了在BERT之后接BIMPM網(wǎng)絡(luò)的效果。同時(shí)以方法NFT-TM為baseline,對(duì)比了兩種改進(jìn)BIMPM之后模型結(jié)構(gòu)的效果(移除BIMPM中的第一層Bi-LSTM模型和將BIMPM的matching層與transformer相結(jié)合的模型)。注意,在模型訓(xùn)練時(shí)有個(gè)重要的trick,考慮到預(yù)訓(xùn)練模型本身的效果和其與頂層模型的融合問題,在訓(xùn)練模型時(shí),需要分兩步進(jìn)行:先固定預(yù)訓(xùn)練模型的參數(shù),僅訓(xùn)練其上層特定任務(wù)網(wǎng)絡(luò),第二步再將整個(gè)網(wǎng)絡(luò)聯(lián)合訓(xùn)練。

該任務(wù)的實(shí)驗(yàn)結(jié)果如下圖所示:

由實(shí)驗(yàn)結(jié)果可得,Bert+Sim-Transformer結(jié)合fine-tune Bert的效果相較僅對(duì)BERT進(jìn)行fine-tune的方法FT-NTM,準(zhǔn)確率提升了近5個(gè)百分點(diǎn)。

因此,從上面一系列的實(shí)驗(yàn)結(jié)果可以看出,我們提出的結(jié)合上層復(fù)雜模型和fine-tune的方法FT-TM是有效的,并且在某些任務(wù)中優(yōu)于fine-tune的方式。同時(shí)在BERT預(yù)訓(xùn)練模型上面集成的神經(jīng)網(wǎng)絡(luò)模型好壞也會(huì)影響到最終的任務(wù)效果。

參考材料:

[1]Matthew Peters, Sebastian Ruder, and Noah A Smith. To tune or not to tune?adapting pretrained representations to diverse tasks. arXiv preprintarXiv:1903.05987, 2019.

論文地址:https://arxiv.org/abs/1907.05338

分享到

xiesc

相關(guān)推薦