速途網7月8日訊(報道:喬志斌)近日,WMT2020國際機器翻譯大賽的榜單停止提交結果并發布排名,其中騰訊微信AI團隊在「中文-英文」翻譯任務上奪得冠軍。

WMT?是機器翻譯領域的國際頂級評測比賽之一在賽制上,組委會根據中英、英中、中日等不同翻譯任務提供測試集,參賽者在線提交機器翻譯結果,組委會將根據在國際上具有廣泛認可度的BLEU自動評估指標對參賽者提交的機器譯文和標準答案進行擬合計算,擬合程度高者排在前面。其中「中文-英文」翻譯任務是大賽歷年來競爭最激烈的領域,也是最大的看點之一,在歷屆冠軍中,微軟、騰訊翻譯君、搜狗都榜上有名。
此次大賽競爭激烈,各參賽方共計提交近300次數據,最終微信AI團隊經過多次角逐脫穎而出,成功占據自動評估指標的榜首。值得一提的是,BLEU評分前兩名的機器譯文均由微信AI團隊提交。同時,今年微信AI僅使用了官方提供的數據(也就是受限資源),超過了所有使用受限資源和無限資源的系統。

在本次大賽上,微信翻譯在技術上以更深和更寬的Transformer結構(包括Self-attention和Average-attention)和 自研的Deep Transition結構(DTMT)為基礎,用融合領域內知識的數據增強方法迭代生成高質量的偽數據,并利用Self-Bleu的組合剪枝策略集成模型并利用集成模型的知識蒸餾單模型,除了常規的交叉熵訓練,還采用三種改進的訓練方法來緩解偏差問題,包括改進的Scheduled Sampling訓練方法、針對目標端輸入的抗噪訓練和更穩定的最小化貝葉斯風險訓練。
目前,微信翻譯已成為一個日翻譯數十億字符的大型多語言機器翻譯引擎,支持多語種間的雙向翻譯,在翻譯質量上均達到業界領先水平。服務場景已涵蓋微信對話翻譯、朋友圈翻譯、微信掃一掃等,同時還為騰訊小微、微信對話開放平臺、微信讀書、QQ郵箱等提供翻譯服務支持,后續會陸續運用于更多的場景。

除了在智能翻譯領域取得優秀成績外,微信AI團隊基于深度學習研發的微信智聆語音識別技術,每天處理超過4億條語音,語音識別正確率達到97%,并在微信語音輸入、語音轉文字、王者榮耀、QQ音樂等產品中提供了技術支持。而專注智能對話和NLP的微信智言,則以騰訊小微開放能力為核心,為除了家居硬件、PaaS、行業云和AI Bot等領域提供技術支持,
在技術開源方面,微信AI開發自研并開源了Transformer推理引擎,這也是騰訊對外開源的第100個項目。該推理引擎在CPU/GPU兩種硬件平臺上都可以獲得最佳性能表現,速度快于pytorch/tensorflow和目前主流Transformers加速方案,且更適合NLP任務特點,無需圖層次預處理,支持變長輸入序列輸入。TurboTransfromers在騰訊內部的游戲、內容生態、廣告與金融等領域獲得了廣泛使用和認可