唐能譯牛:
“一種新的神經(jīng)機器翻譯方法,其中翻譯模型僅使用單語言數(shù)據(jù)集學(xué)習(xí),句子或文檔之間沒有任何對齊”。看了這段描述有點心驚肉跳,機器是越來越聰明了,就像之前AlphaGo Zero在圍棋方面“自學(xué)成才”,不利用任何人類圍棋數(shù)據(jù)一樣, 機器如果從單語切入, 繞開人類的雙語語料, 將又是開辟一個新天地。
論文下載鏈接:https://arxiv.org/pdf/1711.00043.pdf
原文來源:arxiv
作者:Guillaume Lample、Ludovic Denoyer、Marc’Aurelio Ranzato
「雷克世界」編譯:嗯~阿童木呀、多啦A亮
相信大家都知道,近在機器翻譯領(lǐng)域取得了令人印象深刻的成果,而這主要歸功于近在深度學(xué)習(xí)方面所取得巨大進步,以及大規(guī)模平行語料庫(large-scale parallel corpora)的可用性。我們已經(jīng)進行過無數(shù)次嘗試,試圖將這些成功擴展到低資源語言對,但這需要數(shù)以萬計的并行句子。在這項研究中,我們把這個研究方向做到了先進,并研究了在沒有任何平行數(shù)據(jù)的情況下,是否有可能學(xué)習(xí)翻譯?我們提出構(gòu)建一種模型,它用兩種不同的語言從單語語料庫(monolingual corpora)中提取句子,然后將它們映射到相同的潛在空間中。通過學(xué)習(xí)從這個共享的特征空間中以兩種語言進行重構(gòu),該模型有效地學(xué)習(xí)了在不使用任何標(biāo)記數(shù)據(jù)的情況下進行翻譯。我們在兩個廣泛使用的數(shù)據(jù)集和兩個語言對上對模型進行演示,結(jié)果顯示,BLEU分?jǐn)?shù)高達32.8,而在在訓(xùn)練期間甚至沒有使用一個平行句。
得益于近在深度學(xué)習(xí)方面取得的進展以及大規(guī)模平行語料庫的可用性,現(xiàn)如今,機器翻譯已經(jīng)在多個語言對上取得了令人印象深刻的表現(xiàn)。然而,這些模型只有在提供大量的并行數(shù)據(jù),即大約數(shù)百萬個并行句子的情況下,才能很好地運行。不幸的是,并行語料庫的構(gòu)建成本是非常高的,因為這需要專門的專業(yè)知識,而且通常對于低資源語言來說是不可能的。相反,單語數(shù)據(jù)更容易找得到,而且許多具有有限并行數(shù)據(jù)的語言仍然擁有大量的單語數(shù)據(jù)。
在半監(jiān)督環(huán)境中,我們已經(jīng)進行了多次嘗試,試圖利用單語數(shù)據(jù)來提高機器翻譯系統(tǒng)的質(zhì)量。值得注意的是,Sennrich 等人于2015年提出了一個非常高效的數(shù)據(jù)增強方案,我們稱之為“回譯(back-translation)”,即從目標(biāo)語言到源語言的輔助翻譯系統(tǒng)首先在可用的并行數(shù)據(jù)上進行訓(xùn)練,然后用于從大的目標(biāo)端的單語語料庫中生成翻譯。然后將這些翻譯的組成對以及與其相對應(yīng)的參考目標(biāo)(ground truth targets)用作原始翻譯系統(tǒng)的附加訓(xùn)練數(shù)據(jù)。
另一種在目標(biāo)端使用單語數(shù)據(jù)的方式是用語言模型來增強解碼器(Gulcehre等人于2015年提出)。然后,Cheng等人(于2016年)、He等人(于2016年)提出在單語數(shù)據(jù)上增加一個輔助自動編碼任務(wù),這樣就可以保證翻譯后的句子可以再次被回翻成原文。但是,所有這些研究依然依賴于數(shù)萬個平行的句子。
之前關(guān)于零資源(zero-resource)機器翻譯的研究也依賴于標(biāo)記信息,它們不是來自于那些有用的語言對,而是其他相關(guān)的語言對(Firat等人于2016年、Johnson等人于2016年、Chen等人于2017年提出)或其他形式的語言對(Nakayama 和 Nishida于2017年、Lee等人于2017年提出)。先進的例外就是Ravi和Knight(于2011年)、 Pourdamghani和Knight(于2017年)所進行的研究,他們將機器翻譯問題簡化為解密問題。不幸的是,他們的方法局限性在于只適用于相當(dāng)短的句子,而且它只是在一個非常簡單的環(huán)境中得以證明的,包括那些常見的短句子或者是非常接近的語言中。
圖1:原理簡筆圖,用以指導(dǎo)我們設(shè)計目標(biāo)函數(shù)。左(自動編碼):模型被訓(xùn)練,以便基于其噪聲版本重建一個句子。其中,x是目標(biāo),C(x)是噪聲輸入,x^是重建。右(翻譯):模型被訓(xùn)練用以翻譯另一個領(lǐng)域的句子。其中輸入是在前一次迭代(t),y = M(t)(x)處由模型本身M產(chǎn)生的噪聲翻譯(在這種情況下,翻譯順序為從源到目標(biāo)(from source-to-target))。該模型是對稱的,我們在其他語言中將重復(fù)相同的過程。
在本文中,我們研究是否可以訓(xùn)練一個通用的機器翻譯系統(tǒng),而不需要任何形式的監(jiān)督。我們所做的先進假設(shè)是每種語言都存在一個單語語料庫。這個假設(shè)有兩個有趣的原因。 首先,當(dāng)我們遇到一個我們沒有注釋的新語言對,就可以使用它。其次,它對任何好的半監(jiān)督方法預(yù)期會產(chǎn)生一個強大的下界表現(xiàn)。
關(guān)鍵點是在兩種語言(或領(lǐng)域)之間建立一個共同的潛在空間,并根據(jù)兩個原則通過在兩個領(lǐng)域進行重構(gòu)來學(xué)習(xí)翻譯:(1)模型必須能夠從噪聲版本中以給定的語言重構(gòu)句子,如在標(biāo)準(zhǔn)去噪自動編碼器中。(2)該模型還學(xué)習(xí)了在目標(biāo)域中對同一句子進行有噪的翻譯時重構(gòu)任何源語句,反之亦然。對于(2),翻譯的句子通過使用回譯程序獲得,即通過使用學(xué)習(xí)模型將源句子翻譯成目標(biāo)域來獲得翻譯后的句子。除了這些重構(gòu)目標(biāo)之外,我們還使用對抗正則化術(shù)語將源句子和目標(biāo)句子的潛在表示限制為相同的分布,由此模型試圖欺騙鑒別器,該鑒別器被同時訓(xùn)練以識別給定的潛在句子表示的語言。然后迭代地重復(fù)這個過程,從而產(chǎn)生高質(zhì)量的翻譯模型。為了保持我們的方法完全無監(jiān)督,我們初始化我們的算法,通過使用一個基于從同一單語數(shù)據(jù)衍生出雙語詞匯的句子逐字翻譯的無監(jiān)督翻譯模型。
雖然無法與使用大量并行資源的有監(jiān)督方法進行競爭,但我們在第4部分中展示了我們的模型能夠?qū)崿F(xiàn)卓越的性能。例如,在WMT數(shù)據(jù)集上,在對100000對句子進行完全監(jiān)督的機器翻譯系統(tǒng)中,我們可以達到同樣的翻譯質(zhì)量。在Multi30K-Task1數(shù)據(jù)集中,我們在所有語言對上實現(xiàn)了22以上的BLEU值,英翻法BLEU值達到32.76。
接下來,在第2部分中,我們將描述模型和訓(xùn)練算法。然后我們在第四部分給出實驗結(jié)果。然后,我們在第五部分進一步討論相關(guān)工作,并在第六部分總結(jié)我們的發(fā)現(xiàn)。
結(jié)論
我們提出了一種新的神經(jīng)機器翻譯方法,其中翻譯模型僅使用單語言數(shù)據(jù)集學(xué)習(xí),句子或文檔之間沒有任何對齊。這個方法的原理是從一個簡單的無監(jiān)督逐字翻譯模型開始,并基于重構(gòu)損失迭代地改進這個模型,并且使用鑒別器來對齊源語言和目標(biāo)語言的潛在分布。我們的實驗表明,我們的方法能夠在沒有任何監(jiān)督的情況下學(xué)習(xí)有效的翻譯模型。
本文轉(zhuǎn)自:新智元(微信公眾號ID: AI_era),歡迎前往訂閱!