加快打造原始創(chuàng)新策源地,加快突破關(guān)鍵核心技術(shù),努力搶占科技制高點(diǎn),為把我國(guó)建設(shè)成為世界科技強(qiáng)國(guó)作出新的更大的貢獻(xiàn)。

——習(xí)近平總書(shū)記在致中國(guó)科學(xué)院建院70周年賀信中作出的“兩加快一努力”重要指示要求

面向世界科技前沿、面向經(jīng)濟(jì)主戰(zhàn)場(chǎng)、面向國(guó)家重大需求、面向人民生命健康,率先實(shí)現(xiàn)科學(xué)技術(shù)跨越發(fā)展,率先建成國(guó)家創(chuàng)新人才高地,率先建成國(guó)家高水平科技智庫(kù),率先建設(shè)國(guó)際一流科研機(jī)構(gòu)。

——中國(guó)科學(xué)院辦院方針

首頁(yè) > 科研進(jìn)展

自動(dòng)化所提出一種適用于低資源和零資源的多語(yǔ)言機(jī)器翻譯方法

2019-06-11 自動(dòng)化研究所
【字體:

語(yǔ)音播報(bào)

  機(jī)器翻譯是利用計(jì)算機(jī)實(shí)現(xiàn)從一種自然語(yǔ)言到另一種自然語(yǔ)言自動(dòng)轉(zhuǎn)換的技術(shù)。為了實(shí)現(xiàn)多語(yǔ)言之間的相互翻譯,通常需要構(gòu)建多個(gè)一對(duì)一的翻譯模型。一方面每個(gè)翻譯模型需要大規(guī)模存儲(chǔ)和計(jì)算資源,從而多語(yǔ)言翻譯的存儲(chǔ)和計(jì)算消耗非常巨大;另一方面多語(yǔ)言翻譯在獨(dú)立模型下無(wú)法實(shí)現(xiàn)知識(shí)共享?,F(xiàn)有基于編碼器-解碼器的統(tǒng)一多語(yǔ)言翻譯框架雖然可以較好地解決資源占用問(wèn)題,卻面臨著參數(shù)共享和語(yǔ)言共性未被充分利用的問(wèn)題,導(dǎo)致目前多語(yǔ)言翻譯系統(tǒng)的譯文質(zhì)量較低。因此,如何平衡翻譯知識(shí)的共享和獨(dú)立,既解決資源消耗問(wèn)題同時(shí)利用語(yǔ)言共性提升譯文質(zhì)量,成為多語(yǔ)言機(jī)器翻譯的核心挑戰(zhàn)。針對(duì)該挑戰(zhàn),中國(guó)科學(xué)院自動(dòng)化研究所自然語(yǔ)言處理團(tuán)隊(duì)提出一種結(jié)構(gòu)緊湊且語(yǔ)言敏感的多語(yǔ)言機(jī)器翻譯方法,提供了有效的解決思路,相關(guān)成果將發(fā)表在ACL-2019學(xué)術(shù)會(huì)議上。

  該工作主要基于編碼器和解碼器框架下的多語(yǔ)言機(jī)器翻譯。首先在模型表示方面,團(tuán)隊(duì)提出了一種表示器模型,共享編碼器和解碼器的模型結(jié)構(gòu)與參數(shù),取代多語(yǔ)言翻譯框架下的編碼器和解碼器,從而顯著減少了模型參數(shù)的規(guī)模,更好地利用了語(yǔ)言之間的共性。同時(shí),為了提升模型對(duì)不同語(yǔ)言的區(qū)分能力,團(tuán)隊(duì)提出了三種語(yǔ)言敏感的模塊,分別是語(yǔ)言敏感的詞向量、語(yǔ)言敏感的注意力機(jī)制以及語(yǔ)言敏感的判別器。

  針對(duì)不同語(yǔ)言,團(tuán)隊(duì)設(shè)定一個(gè)語(yǔ)種向量,該向量稱之為語(yǔ)言敏感詞向量。如下圖最底端所示,該語(yǔ)種向量加到輸入的詞向量中,并在訓(xùn)練過(guò)程中進(jìn)行調(diào)優(yōu)。下圖紅色虛線標(biāo)明了語(yǔ)言敏感注意力機(jī)制模塊,該模塊對(duì)于不同的翻譯任務(wù),動(dòng)態(tài)地選擇不同的注意力機(jī)制。下圖最頂端是團(tuán)隊(duì)新提出的語(yǔ)種判別器模塊,該模塊對(duì)表示器的最上層的隱式表示進(jìn)行語(yǔ)種分類,增強(qiáng)在解碼過(guò)程中對(duì)不同語(yǔ)言的區(qū)分能力。

  團(tuán)隊(duì)分別在較大規(guī)模的WMT數(shù)據(jù)集和較小規(guī)模的IWSLT數(shù)據(jù)集(如表1所示)上進(jìn)行了一到多和多到多的多語(yǔ)言翻譯實(shí)驗(yàn),來(lái)驗(yàn)證該方法的性能。相較于之前的多語(yǔ)言翻譯模型,該方法均有一定的提升,甚至在一些語(yǔ)言對(duì)上面超過(guò)了獨(dú)立一對(duì)一模型在雙語(yǔ)上訓(xùn)練的模型。同時(shí),該方法極大地壓縮了模型參數(shù)規(guī)模,其中在一到四多語(yǔ)言翻譯中,在僅包含20%左右的參數(shù)規(guī)模的情況下就能取得可比的翻譯性能。

  在多種語(yǔ)言到多種語(yǔ)言的翻譯情境下,團(tuán)隊(duì)對(duì)提出的方法進(jìn)行了測(cè)試。該方法相較于基線系統(tǒng)有了顯著的提升,其中在語(yǔ)料不平衡的翻譯情境下,在英-越雙向翻譯任務(wù)上都取得了當(dāng)前最好的性能。同時(shí),在零資源的Zero-Shot翻譯情境下,該方法也比前人的工作有了一定程度的提高,說(shuō)明該方法能夠很好地利用語(yǔ)言之間的共性,適用于低資源和零資源的翻譯情形。

  論文信息:Yining Wang, Long Zhou, Jiajun Zhang, Feifei Zhai, Jingfang Xu, Chengqing Zong. A Compact and Language-Sensitive Multilingual Translation Method. ACL-2019.

 

模型結(jié)構(gòu)示意圖

打印 責(zé)任編輯:葉瑞優(yōu)

掃一掃在手機(jī)打開(kāi)當(dāng)前頁(yè)

© 1996 - 中國(guó)科學(xué)院 版權(quán)所有 京ICP備05002857號(hào)-1 京公網(wǎng)安備110402500047號(hào) 網(wǎng)站標(biāo)識(shí)碼bm48000002

地址:北京市西城區(qū)三里河路52號(hào) 郵編:100864

電話: 86 10 68597114(總機(jī)) 86 10 68597289(總值班室)

編輯部郵箱:casweb@cashq.ac.cn

  • © 1996 - 中國(guó)科學(xué)院 版權(quán)所有 京ICP備05002857號(hào)-1 京公網(wǎng)安備110402500047號(hào) 網(wǎng)站標(biāo)識(shí)碼bm48000002

    地址:北京市西城區(qū)三里河路52號(hào) 郵編:100864

    電話: 86 10 68597114(總機(jī)) 86 10 68597289(總值班室)

    編輯部郵箱:casweb@cashq.ac.cn

  • © 1996 - 中國(guó)科學(xué)院 版權(quán)所有
    京ICP備05002857號(hào)-1
    京公網(wǎng)安備110402500047號(hào)
    網(wǎng)站標(biāo)識(shí)碼bm48000002

    地址:北京市西城區(qū)三里河路52號(hào) 郵編:100864
    電話:86 10 68597114(總機(jī))
       86 10 68597289(總值班室)
    編輯部郵箱:casweb@cashq.ac.cn