自然語言處理(NLP)機器翻譯
小編:管理員 9閱讀 2022.07.28
引言
本篇給大家繼續介紹中國科學院&&微信AI團隊今年入圍ACL的兩篇文章,這兩篇文章都是關于神經網絡翻譯。其中第一篇主要解釋了暴露偏差和過度校正現象,提出了一種新的解決方法并該方法與試圖解決該類問題的其他方法進行了對比。第二篇針對神經機器翻譯模型,非自回歸模型容易產生過翻譯和漏翻譯錯誤,作者提出了Reinforce-NAT、FS-decoder來為非自回歸模型引入序列信息。
Attention
正文開始
1
First Kill
TILE: Bridging the Gap between Training and Inference for Neural Machine Translation
Paper: arxiv.org/pdf/1906.0244
Code: None
文章摘要神經機器翻譯(NMT)是根據上下文詞預測下一個詞的方式,按順序生成目標詞。在訓練時,它以標注詞作為上下文進行預測,而在推理時,它必須從頭開始生成整個序列。這種輸入上文的差異會導致方法之間的錯誤積累。此外,單詞級訓練要求生成的序列與標注序列嚴格匹配,這導致對不同但合理的翻譯進行過度校正。為此本文提出,在訓練過程中,不僅要從標注序列中抽取上下文單詞,而且從模型預測的序列中抽取上下文單詞,并選擇句子級最優的預測序列來解決這些問題。實驗結果表明,我們的方法可以在多個數據集上實現顯著的改進。
模型方法概要本文方法首先從預測詞中選擇oracle詞,然后從oracle詞和ground truth詞中抽取上下文作為樣本。同時,在選擇oracle單詞時,不僅要進行逐詞貪婪搜索,還要進行句子層次的評價,例如BLEU,在交叉熵的成對匹配限制下,具有更大的靈活性。在訓練開始時,模型以較大的概率選擇上下文標注詞。隨著模型的逐步收斂,越來越多地選擇oracle單詞作為上下文。這樣,訓練過程就從一個完全指導的機制轉變為一個較少指導的機制。在這種機制下,模型有機會學習處理推理時所犯的錯誤,也有能力從對替代翻譯的過度糾正中恢復過來。在RNN搜索模型和強Transform結構模型上驗證了該方法的有效性。
具體模型方法介紹該模型的主要架構圖如下所示:

本方法是將標注詞和之前預測的詞作為上下文輸入。通過訓練模型來處理測試期間出現的情況,這可能會減少訓練和推理之間的差距。我們將介紹兩種選擇oracle單詞的方法。一種方法是用貪心搜索算法在詞級選擇oracle單詞,另一種方法是在句子級別選擇最優oracle序列。句子級oracle提供了n-gram與標注序列進行匹配的操作,因此天生具有從對替代上下文的過度糾正中恢復的能力。為了預測第j個目標詞
,我們的方法包括以下步驟:
1、在第
步選擇(單詞級別或者句子級別)一個oracle單詞
。
2、在標注單詞
中進行抽樣其概率為p,或者在orcle單詞
中進行抽樣其概率為1-p。
3、使用采樣的單詞作為
,將以下方程


中的
替換為
,然后執行以下基于注意力的NMT預測。
實驗結果中文翻譯成英文任務中不區分大小寫的BLEU得分(%)

不同因素對中英翻譯的訓練損失曲線。

在中英翻譯任務中,不同因素對驗證集的BLEU評分的變化趨勢。

2
Double Kill
TILE: Retrieving Sequential Information for Non-Autoregressive Neural Machine Translation
Contributor : 中國科學院&&微信AI團隊
Paper:arxiv.org/pdf/1906.0944
Code:None
文章摘要主流的神經機器翻譯模型采用自回歸的解碼機制,即逐詞生成翻譯結果,翻譯延遲較高。非自回歸機器翻譯對每個詞的翻譯概率獨立建模,因此能并行解碼出整個譯文,大幅提升翻譯速度。然而,非自回歸模型在訓練時缺乏目標端序列信息的指導,容易產生過翻譯和漏翻譯的錯誤;诖,作者提出了兩種方法來為非自回歸模型引入序列信息。首先,我們提出了一種基于Reinforce-NAT算法的序列級訓練方法來減少方差且保持訓練的穩定性。其次,提出了一種新穎的Transformer解碼器FS-decoder,將目標序列信息融合到解碼器的頂層。
Reinforce-NAT單詞級的目標函數,如交叉損失,集中于在每個位置生成正確的token,這對于沒有目標順序信息的NATs來說是較差的。我們建議NAT模型生成高質量的句子,而不是使用序列級訓練算法(cenat)生成正確的單詞。其中Reinforce-NAT算法如下所示:

該算法以概率分布p、遍歷計數k和采樣次數n為輸入,步驟t的梯度估計為輸出,并將此過程分為遍歷和采樣兩部分。該算法的目標是遍歷重要詞的梯度,因為它們可以控制梯度估計,并通過一次采樣來估計不那么重要的詞的梯度。
FS-decoderFS-decoder將目標序列信息融合到解碼器的頂層。該系統由四部分組成:底層、融合層、頂層和softmax層。在解碼器中,我們以非自回歸的方式并行化底層來為模型加速,以自回歸的方式串行化頂層以提高翻譯質量。將強制指導算法(Williams and Zipser, 1989)應用于目標嵌入直接饋送到融合層的訓練中。在解碼過程中,fs -decoder只需要運行頂層自回歸。該模型的架構圖如下所示:

生成質量,解碼效率,加速和訓練速度結果如下:

top-k對Reinforce-NAT的影響。

翻譯性能對比:

在WMT14 En→De的驗證集上對不同長度的句子的BLEU評分。

3
Aced
相關推薦