39支隊伍角逐國際頂級機器翻譯大賽WMT

國際機器翻譯大賽(WMT)由國際計算語言學協(xié)會 (ACL) 舉辦,是全球學術界公認的國際頂級機器翻譯比賽,也是各大科技公司、頂尖院校與學術機構展示自身機器翻譯實力的較量舞臺。

自2006年至今,國際機器翻譯大賽(WMT)已經成功舉辦15屆,本屆比賽共有39支隊伍參賽,包括微軟、Facebook、Google DeepMind、騰訊、小牛翻譯、華為、滴滴等實力雄厚的參賽團隊。

組委會根據(jù)中英、英中、英德等22個不同翻譯任務提供測試數(shù)據(jù)集,并引入科學的語言專家人工評估流程。每個參賽系統(tǒng)首先由多名經驗豐富的語言學家進行評估,然后對最終分數(shù)進行標準化加權,最后進行排名。整個評估過程歷時四個月,評價結果有非常高的置信度。

語言專家評估得分第一 火山翻譯拿下「中文-英語」語向冠軍

歷年比賽中,「中文-英語」語向的翻譯任務都是參賽隊伍最多、競爭最為激烈的機器翻譯任務之一,今年更勝往年。

火山翻譯團隊參加了非受限場景的比賽,也就是在給定測試集的情況下,可以使用任何數(shù)據(jù)和方法探索翻譯效果極限的比賽方式,組織方也引入了四個權威的在線機器翻譯商業(yè)系統(tǒng)(Online-A、G、Z、B)作為對比,這也是最能體現(xiàn)翻譯團隊數(shù)據(jù)和算法綜合能力的場景。在人工評估中,火山翻譯團隊(Volctrans) 力壓群雄,以明顯的優(yōu)勢奪得了冠軍。

Generated

(圖:WMT2020 中英翻譯前幾名系統(tǒng)得分。Ave.z代表人工評估標準化分數(shù),也是目前機器翻譯最受認可的指標。)

相比「中文-英語」,「德語-英語」在 WMT 比賽上是傳統(tǒng)項目,也是歐洲國家最關注的語向。在最后的人工評價中,火山翻譯依然表現(xiàn)出色,取得了第一名的成績。國際機器翻譯大賽組委會給出了很高的評價,“作為新的參與者,火山翻譯表現(xiàn)尤為出色(particularly well),超越了很多傳統(tǒng)隊伍”。

復旦大學計算機學院教授、EMNLP2021大會程序主席黃萱菁表示:“WMT是非常硬核的比賽,火山翻譯取得了出色成績?;鹕椒g的LightSeq、mRASP等技術讓人眼前一亮,機器翻譯有廣闊的發(fā)展空間,非常期待火山翻譯為機器翻譯的技術研究和產品應用探索更多可能性。”

領先的背后:火山翻譯致力于打造前沿研究、產品研發(fā)和用戶反饋的閉環(huán)

火山翻譯(Volctrans)是由字節(jié)跳動計算機研究科學家、工程師、產品經理、產品運營和語言專家組成的專業(yè)團隊研發(fā),其基于自主研發(fā)的機器學習技術,積累了百億多種語言語料,已支持超過50個語種、2500個語對之間的互譯,翻譯效果和速度業(yè)界領先。

Generated

(圖:火山翻譯官網??梢酝ㄟ^ https://translate.volcengine.cn/ 體驗火山翻譯,并了解更多產品能力。)

目前,火山翻譯具備文本翻譯、語音翻譯、圖像翻譯、語種識別四種能力,在辦公、娛樂、新聞等場景表現(xiàn)優(yōu)異。

基于這些能力,火山翻譯推出了一系列形態(tài)多樣的產品與服務,包括機器翻譯云服務、智能視頻翻譯、智能同傳、翻譯瀏覽器插件等。此外,火山翻譯支持API、SDK、私有部署等多種接入方式,且支持垂直領域的快速模型定制,能夠滿足不同群體和不同行業(yè)的翻譯需求。

在視頻翻譯場景,火山翻譯提供簡單高效的視頻“轉寫-打軸-翻譯”全流程服務,輕松聽譯、智能打軸、高效編輯、專業(yè)審校,集四大能力于一身,幫助創(chuàng)作者輕松高效地應對跨語言視頻創(chuàng)作。

在語音翻譯領域,火山翻譯的智能同傳技術也表現(xiàn)卓越,能夠根據(jù)現(xiàn)場發(fā)言提供高品質、低延時的實時語音識別字幕結果,同時提供人工字幕保障方案,讓會議現(xiàn)場以及直播字幕更精準流暢。

火山翻譯的技術來源于字節(jié)跳動團隊多年機器學習和自然語言處理領域的深耕。團隊擁有百余項技術發(fā)明專利,在人工智能頂級國際學術會議發(fā)表50余篇學術論文。在機器翻譯技術上更是獨創(chuàng)了mRASP多語言預訓練算法,把幾十種語言語料融合在一起訓練,獲得的模型在具體語對上微調取得了44個語對的業(yè)界最佳性能,整體效果力壓Facebook研發(fā)的mBART方法。同時,火山翻譯研發(fā)的LUT和COSTT語音到文本翻譯算法,從語音輸入(例如英語)可以直接輸出目標語言文字(例如中文),減少了錯誤累積,在效果上取得了業(yè)界領先。

字節(jié)跳動杰出科學家、人工智能實驗室總監(jiān)李磊稱:“火山翻譯核心優(yōu)勢在打造前沿研究、產品研發(fā)和用戶反饋的閉環(huán),研發(fā)團隊分布全世界多個國家,工作中也在使用自己打造的產品來跨語言溝通,在迭代中快速進步?!?/p>

火山翻譯團隊還研發(fā)了多項機器翻譯前沿技術,目前已經集成到火山翻譯系列產品中,例如鏡像式生成模型MGNMT、CTNMT算法、交互式翻譯算法CAMIT、膠囊翻譯網絡、并行翻譯算法PNAT和GLAT等?;鹕椒g還采用了自研的高性能序列推理引擎LightSeq,推理速度業(yè)界最快,比原生系統(tǒng)提高10倍,可以達到每秒兩萬詞的翻譯速度。

李磊表示:“火山翻譯已經為飛書、今日頭條等多款海內外產品提供穩(wěn)定和高質量的翻譯服務,每天處理數(shù)億次翻譯請求,為來自全球的過億用戶群體提供優(yōu)質的翻譯體驗。未來,火山翻譯希望為更多用戶提供服務,幫助用戶更高效地實現(xiàn)國際信息無障礙交流?!?/p>

分享到

songjy

相關推薦