欧美贵妇VIDEOS办公室番外,伊人久久大香线蕉av五月天,99reav

圖1.機器翻譯的發(fā)展

神經機器翻譯始于2013年提出的Encoder-Decoder框架，在發(fā)展的過程中，大部分模型由RNN結構組成，RNN的序列特性利于自然語言建模的同時也帶來無法高效并行化的弊端。2015年Attention概念的提出使得機器翻譯的品質大幅度提升，2017年谷歌在此基礎上提出的Transformer模型成為當今神經機器翻譯模型的基石。

圖2.神經機器翻譯的發(fā)展

2. Transformer結構

Transformer的本質是一個帶有自注意力機制的Encoder-Decoder結構，具體結構如圖所示。從整體上看，左半部分為Encoder編碼器，右半部分為Decoder解碼器。編碼器讀取源語言句子并編碼成固定長度的向量，然后解碼器將向量解碼并生成對應的目標語言翻譯。

圖3.Transformer整體結構

編碼端和解碼端分別由6層結構相同的EncoderLayer和結構相同的Decoder Layer堆疊而成。Encoder和Decoder之間的連接方式為：Inputs經過各層Encoder Layer作用后的輸出序列作為Encoder的最終結果，分別輸入各層Decoder Layer。

圖4.Transformer編碼端解碼端整體結構

具體每個EncoderLayer由2個sub-layers組成，依次為編碼器多頭自注意力（圖左Encoder中的self-attention）、前饋網絡（Feed Forward）；每個DecoderLayer由3個sub-layers組成，依次為解碼器多頭自注意力（圖右Decoder中的self-attention）、編碼器解碼器多頭自注意力（Encoder-DecoderAttention）和前饋網絡（Feed Forward）。

圖5.單層EncoderLayer-Decoder Layer結構

下面將詳細介紹各個子結構。

2.1 多頭自注意力機制

Transformer的核心在于多頭自注意力機制，分為點積注意力計算和多頭注意力兩大步驟。

（1）點積注意力

點積注意力函數有3個輸入：Q（請求（query））、K（主鍵（key））、V（數值（value））。出現在編碼器或解碼器中不同的注意力計算時，Q,K,V的表示也有所不同：

在編碼器自注意力中，Q=K=V，均是編碼端各個位置的表示，來自編碼器前一層的輸出，使得編碼器中的每個位置都可以關注編碼器上一層的所有位置；
在解碼器中的第一個sublayer自注意力中，Q=K=V，均是解碼端各個位置的表示，使得解碼器中的每個位置可以關注解碼器中直到并包括該位置的所有位置；
在解碼器中的第二個sublayer編碼器-解碼器注意力中，Q來自解碼器的上一個sublayer，是解碼端各個位置的表示，K=V，來自編碼器的最終輸出，是編碼端各個位置的表示，使得解碼器中的每個位置能關注到輸入序列中的所有位置。

圖6.Transformer的三種自注意力

點積注意力具體計算公式如下：

第一步，對和的轉置進行點乘操作。此為利用點積的方式計算相關性系數，表示一個序列上任意兩個位置的相關性。

第二步，通過系數

進行放縮操作，防止過大的輸入進入Softmax函數的飽和區(qū)造成梯度過小等問題。

第三步，與掩碼矩陣相加，從而對句子序列中Padding的位置屏蔽，以及解碼器自注意力中需額外對目標語言序列未來位置的信息進行屏蔽。

第四步，使用Softmax函數對相關性矩陣在行的維度上進行歸一化操作，結果對應中的不同位置上向量的注意力權重。

第五步，和進行矩陣乘法，即對Value加權求和。

（2）多頭注意力

圖7.點乘注意力

2.2 前饋神經網絡

該網絡獨立且相同的應用于每個編碼層及解碼層的最后一個子層，包含兩個線性變換，中間有一個ReLU激活函數。

2.3 殘差正則化

為防止梯度消失或者梯度爆炸并加快模型收斂，在每個子層均使用殘差鏈接和層歸一化操作：( + ())

2.4 位置編碼

為捕捉句子序列的位置順序信息，將編碼端輸入的InputEmbedding、解碼端輸入的OutputEmbedding均與位置編碼的對應位置嵌入相加。

其中為位置，為維度。

以上是對Transformer結構的介紹。

2.5 創(chuàng)新點總結

Transformer的創(chuàng)新點在于提出的自注意力機制。

第一，不采用RNN和CNN的結構，具有并行運算的能力，體現在編碼器的所有詞向量以矩陣的形式并行進行注意力計算，改進了此前RNN最被人詬病的訓練慢的缺點。

第二，在計算復雜度方面，Self-Attention層將所有位置連接到恒定數量的順序操作，而循環(huán)層需要O(n) 順序操作。對于每層復雜度，當序列長度n 小于表示維度d 時，自注意力層比循環(huán)層快。

表1.不同圖層類型最大路徑長度、復雜度、最少順序操作數對比表

其中，n為序列的長度，d為表示的維度，k為卷積的核的大小，r為受限self-attention中鄰域大小.

第三，多頭自注意力機制使得Transformer可以學習到豐富的上下文信息。由于自注意力的計算直接將句子中任意兩個單詞的關系通過同一種操作（Query和Key的相關度）處理，將信息傳遞的距離拉近為1，所以可以更好的捕獲遠距離依賴的特征，如：同一個句子中單詞之間的句法特征，包含指代關系的語義特征等。同時，多頭機制將模型分為多個頭，分別在不同的表示子空間學習，使得模型在各個子空間關注不同方面的信息，有的頭可以捕捉句法信息，有頭可以捕捉詞法信息，最后綜合得到更豐富全面的信息。

圖8.捕捉語法信息

圖9.捕捉語義信息

另一方面，Transformer可以增加到非常深的深度，使得表層的詞法信息隨著模型的逐步加深組合為更加抽象的語義信息。Transformer充分發(fā)掘DNN模型的特性，為模型準確率帶來提升，這也是其性能優(yōu)越的原因之一。

二、百分點科技智能翻譯實踐

1. 產品邏輯架構

圖10.產品邏輯架構圖

下面詳細闡述各個邏輯層及其子層。

1.1 語料倉庫

該層包括語料收集、語料清洗、質量評測、語料入庫四個子層次。其中：

語料收集：機器翻譯模型的效果同訓練語料數量成正相關。為了充分發(fā)掘自有數據的價值，并靈活應對未來的個性化挑戰(zhàn)，我們必須持續(xù)收集各類語料庫。百分點科技在國內外多語言輿情分析、文本分析、機器翻譯的項目中，積累了大量的多語言語料，為機器翻譯的效果奠定了堅實的數據基礎。

語料清洗：語料清洗是舉足輕重的關鍵步驟，它決定著一個好的模型訓練難易程度，也是決定特定領域模型效果好壞的又一重大因素。語料質量越高模型翻譯效果越好。對收集來的語料要經過諸如長度失衡處理、雜質識別去除、語種識別、標點符號對齊等步驟處理。

質量評測：為使模型效果更專業(yè)、更符合特定領域場景。我們需要質量評測來選取高質量語料作為模型訓練數據。對于清洗好的語料要進行質量評測，便于優(yōu)化調整語料清洗步驟，通常這些評測手段包括：詞法分析、句法分析、SMT校驗以及人工校驗等。

語料入庫：為適應特定領域語言規(guī)律的發(fā)現、規(guī)則的制訂與挖掘、語言知識的發(fā)現等深層次研究，需要質量評估合格的語料錄入到數據庫中，便于后續(xù)對語料進行智能檢索、版本管理、多維分類、質量評級等多種操作。

1.2 模型工程

模型工程是翻譯系統(tǒng)的核心處理功能。包括主流語言翻譯模型的構建、訓練及針對特定問題的優(yōu)化。

主流語言翻譯：為滿足各大領域對非結構化文檔數據的高質量翻譯要求，我們構建先進的深度神經網絡Transformer結構作為翻譯模型，并通過回譯等方式提升翻譯效果。模型效果的提升，也是翻譯產品專業(yè)化的保證。

小語種翻譯：在各類翻譯場景中，也存在對小語種的需求，對此我們的解決方式是：無監(jiān)督學習方法、跨語言學習翻譯等。

特定問題優(yōu)化：為適應特定領域場景，我們需要針對性優(yōu)化翻譯模型效果。對這些特定問題歸類，解決方式如：實體校正、術語干預、數詞量詞校正、漏譯補全等。

速度優(yōu)化：為更廣范圍地獲取最新態(tài)勢，及時響應特定領域場景翻譯需求，我們需要對模型翻譯進行速度優(yōu)化。優(yōu)化包括如：減少浮點數精度，模型壓縮等。

1.3 服務架構

在應用服務部署的方式上，我們采用Nginx+ Tornado + RabbitMQ，簡單快速部署模型。在對外訪問接口的方式上，我們采用RESTAPI提供高效、標準的服務調用方式。接口按照協議類型來看，可以包括但不限于HTTP。

1.4 功能應用

功能應用即客戶終端，這里將客戶終端劃分為翻譯終端和管理終端。翻譯終端為用戶（游客、注冊用戶）提供文本及文檔翻譯服務；管理終端為注冊用戶提供詞庫管理、句庫管理、任務管理、工具箱、權限管理等相應服務。

2. 語料搜集及處理

2.1 語料搜集及產生來源

訓練語料是模型的基礎，此外翻譯模型效果還依賴于語料的質量和分布，因此我們在語料收集階段在保證語料規(guī)模的同時平衡經濟、政治、科技、生活、文化等各大領域的比例，使訓練語料盡可能覆蓋實際使用中的語言場景。

語料收集渠道包括：

在業(yè)務中積累的雙語數據；
公開供研究使用的數據集；
網絡爬取，新聞、字幕、例句等；
語料商城購買；
雙語書籍的計算機輔助和人工對齊等。

除了獲取全世界互聯網上開放的語料庫資源，開發(fā)團隊設計一種從電子文檔中的單邊語料構建領域平行語料的模型與工具，可較為高效地構建高質量的行業(yè)領域平行語料支撐模型訓練。百分點認知智能實驗室團隊提出通過給譯文分類的方式學習語義相似性：給定一對雙語文本輸入，設計一個可以返回表示各種自然語言關系（包括相似性和相關性）的編碼模型。利用這種方式，模型訓練時間大大減少，同時還能保證雙語語義相似度分類的性能。由此，實現快速的雙語文本自動對齊，構建十億級平行語料。

2.2 語料對齊和管理

在語料庫建設過程中，需要充分利用自然語言處理以及相關技術開發(fā)語料庫自動加工工具，提高語料庫對齊建設效率，提升平行語料質量，提高語料庫規(guī)模。

百分點智能翻譯系統(tǒng)，可以對語料進行全流程科學管理，從而支撐模型的本地化、個性化訓練和升級，及時提高翻譯效果。

語料庫自動加工工具系統(tǒng)涵蓋從語料的OCR、轉換、清洗、對齊、校對、標簽、管理、檢索、分析、訓練等多個子系統(tǒng)。

2.3 語料處理

神經機器翻譯需要大量的訓練語料，這些語料來源范圍廣，格式種類多，所以數據處理的第一步是將不同來源不同格式的數據統(tǒng)一處理，合并多源數據。

與統(tǒng)計機器翻譯一樣，神經機器翻譯也需要對輸入和輸出的句子進行分詞，目的是得到翻譯的最基本單元。但是，這里所說的單詞并不是語言學上的單詞，更多的是指面向機器翻譯任務的最小翻譯片段。

自然語言的表達非常豐富，因此需要很多的單詞才能表達不同的語義。但是，神經機器翻譯系統(tǒng)對大詞表的處理效率很低，比如，輸出層在大規(guī)模詞表上進行預測會有明顯的速度下降，甚至無法進行計算。因此，在神經機器翻譯中會使用受限的詞表，比如包含30000-50000個單詞的詞表。另一方面，翻譯新的句子時，受限詞表會帶來大量的未登錄詞(Outof Vocabulary Word，OOV Word)，系統(tǒng)無法對其進行翻譯。產生未登錄詞一方面的原因是詞表大小受限，另一方面的原因在于分詞的顆粒度過大。對于后者，一種解決方法是進一步對“單詞”進行切分，以得到更小的單元，這樣可以大大緩解單詞顆粒度過大造成的數據稀疏問題。這個過程通常被稱作子詞切分(Sub-wordSegmentation)。以BPE為代表的子詞切分方法已經成為了當今神經機器翻譯所使用的標準方法，翻譯效果顯著超越基于傳統(tǒng)分詞的系統(tǒng)。

此外，機器翻譯依賴高質量的訓練數據。在神經機器翻譯時代，模型對訓練數據很敏感。由于神經機器翻譯的模型較為復雜，因此數據中的噪聲會對翻譯系統(tǒng)產生較大的影響。特別是在實際應用中，數據的來源繁雜，質量參差不齊。因此，往往需要對原始的訓練集進行標準化(Normalization)和數據清洗(DadaCleaning)，從而獲得高質量的雙語數據用于模型訓練。

以上這些內容統(tǒng)稱為數據處理。下圖展示了百分點智能翻譯系統(tǒng)數據處理流程，主要步驟包括分詞、標準化、數據過濾和子詞切分。

圖11.機器翻譯數據處理流程

3. 模型訓練

Transformer的訓練流程：首先對模型進行初始化，然后在編碼器輸入包含結束符的源語言單詞序列。解碼端每個位置單詞的預測都要依賴已經生成的序列。在解碼端輸入包含起始符號的目標語序列，通過起始符號預測目標語的第一個單詞，用真實的目標語的第一個單詞去預測第二個單詞，以此類推，然后用真實的目標語序列和預測的結果比較，計算它的損失。Transformer使用了交叉熵損失(CrossEntropy Loss)函數，損失越小說明模型的預測越接近真實輸出。然后利用反向傳播來調整模型中的參數。由于Transformer將任意時刻輸入信息之間的距離拉近為1，摒棄了RNN中每一個時刻的計算都要基于前一時刻的計算這種具有時序性的訓練方式，因此Transformer中訓練的不同位置可以并行化訓練，大大提高了訓練效率。

需要注意的是，Transformer包含很多工程方面的技巧。首先，在訓練優(yōu)化器方面，需要注意以下幾點：Transformer使用Adam優(yōu)化器優(yōu)化參數；Transformer在學習率中同樣應用了學習率預熱(Warm_up)策略。

另外，Transformer為了提高模型訓練的效率和性能，還進行了以下幾方面的操作：

小批量訓練(Mini-batchTraining):每次使用一定數量的樣本進行訓練，即每次從樣本中選擇一小部分數據進行訓練。這種方法的收斂較快，同時易于提高設備的利用率。每一個批次中的句子并不是隨機選擇的，模型通常會根據句子長度進行排序，選取長度相近的句子組成一個批次。這樣做可以減少padding數量，提高訓練效率。

Dropout：由于Transformer模型網絡結構較為復雜，會導致過度擬合訓練數據，從而對未見數據的預測結果變差。這種現象也被稱作過擬合(OverFitting)。為了避免這種現象，Transformer加入了Dropout操作。Transformer中這四個地方用到了Dropout：詞嵌入和位置編碼、殘差連接、注意力操作和前饋神經網絡。

標簽平滑(LabelSmoothing)：在計算損失的過程中，需要用預測概率去擬合真實概率。在分類任務中，往往使用One-hot向量代表真實概率，即真實答案位置那一維對應的概率為1，其余維為0，而擬合這種概率分布會造成兩個問題：

無法保證模型的泛化能力，容易造成過擬合；
概率值0和1鼓勵所屬類別和其他類別之間的差距盡可能加大，會造成模型過于相信預測的類別。

因此Transformer里引入標簽平滑來緩解這種現象，簡單的說就是給正確答案以外的類別分配一定的概率，而不是采用非0即1的概率。這樣，可以學習一個比較平滑的概率分布，從而提升泛化能力。

4. 翻譯效果

4.1 低資源翻譯優(yōu)化

機器翻譯依賴于大量高質量的平行語料，然而對于小語種，存在數據量小，平行語料難以搜集問題。針對數據稀疏問題，百分點科技使用了回譯來進行語料擴充，進而提高翻譯效果。以日中模型為例，通過回譯方法，將原有的3308萬平行語料擴充到6700萬語料左右，然后再訓練。通過此種方式，中日方向bleu較通過英文作為中間語言方式提升了10.4，日中方向bleu提升了12.5，對比結果如下表。

表2.兩個方向BLEU和公司A對比表

4.2 術語翻譯優(yōu)化

翻譯過程中，越來越多的筆譯工作者選擇調用和參考機器翻譯結果，并在機翻譯文的基礎上進行編輯修改。這種新型翻譯模式就是MTPE（機器翻譯+譯后編輯），能夠有效提升翻譯效率。不過，常有譯員被機翻譯文里不準確的術語翻譯“拖了后腿”。每當發(fā)現機翻譯文與給定術語、常用譯法或專有名詞不一致時，譯員都要花費大量時間手動查找替換，十分麻煩。

術語干預功能可以提高公司名稱、品牌名稱、行業(yè)縮寫等術語機翻結果的準確度，減輕譯者手動填充術語的負擔。機器翻譯+術語干預的翻譯新模式有效確保了譯文表達的一致性，大大提升了譯員和審校的工作效率和翻譯質量。

百分點智能翻譯系統(tǒng)對文檔內縮略語動態(tài)提取，然后以縮略語+全稱形式翻譯出來，效果如下圖：

圖12.百分點智能翻譯系統(tǒng)縮略語翻譯示例圖

4.3 百分點翻譯效果

表3.百分點智能翻譯系統(tǒng)評測BLEU得分表

5. 翻譯特色

百分點智能翻譯系統(tǒng)經過迭代打磨，積累了以下6大特色：

支持涵蓋中文、英文、俄文、法文、西班牙文、阿拉伯文、德文、日文、韓文等多語種互譯。
具有文檔翻譯、文本翻譯、文檔轉換、圖表提取等四大功能。
混合語言翻譯。支持混合語種文檔的自動識別和翻譯，即上傳混合語種文檔，翻譯為指定語言的譯文。
術語干預翻譯。系統(tǒng)支持詞庫、句庫、縮略語庫干預神經機器翻譯結果。
縮略語自動識別。支持對文檔中縮略語的自動識別、提取匹配和智能翻譯，即文檔中某一處出現了縮略語的簡寫以及對應的全文，在其他僅出現縮略語的地方也能給出縮略語對應全文的譯文。
支持本地化和saas部署。

三、結束語

機器翻譯算法發(fā)展非?？?，隨著全球信息交流的加快，要求翻譯形態(tài)更趨于多元化，人們對于翻譯效果要求越來越高。百分點科技將在機器翻譯效果優(yōu)化上持續(xù)發(fā)力，嘗試融合語音、圖像的多模態(tài)翻譯、元學習、遷移學習等方法，追蹤前沿技術，踐行用認知智能技術服務社會發(fā)展的使命。

參考資料

[1]Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neuralnetworks[C]//Advances in neural information processing systems. 2014.

[2]Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translationby jointly learning to align and translate. CoRR, abs/1409.0473, 2014.

[3]Cho K, Van Merri?nboer B, Gulcehre C, et al. Learning phrase representationsusing RNN encoder-decoder for statistical machine translation[J]. arXiv, 2014.

[4]Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Norouzi, WolfgangMacherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, et al. Google’sneural machine translation system: Bridging the gap between human and machinetranslation. arXiv preprint arXiv:1609.08144, 2016.

[5]Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin.Convolutional sequence to sequence learning. arXiv preprint arXiv:1705.03122v2,2017.

[6]Ashish Vaswani, Noam Shazeer, Niki Parmar,Jakob Uszkoreit, Llion Jones, Aidan N Gomez, L ukasz Kaiser, and IlliaPolosukhin. Attention is all you need. In Advances in neural informationprocessing systems, pages 5998–6008, 2017.

[7]肖桐, 朱靖波. 機器翻譯統(tǒng)計建模與深度學習方法.

[8]Vaswani A , Shazeer N , Parmar N , et al.Attention Is All You Need[J]. arXiv, 2017.

分享到

百分點

xiesc

相關推薦

近期文章

熱門標簽