當前位置:財富500強首頁 > 科技 > 新聞?wù)?/div>

Facebook有新技術(shù)?或可助人類彌合語言鴻溝

來源于互聯(lián)網(wǎng) 2017年08月05日 閱讀(

《創(chuàng)世記》第11章中記載,人類計劃建立通天的高塔,而上帝讓人類說不同的語言,使得他們無法協(xié)作,計劃最終失敗。

現(xiàn)實中,不同語言成為了各自所屬文化的因子,構(gòu)建出一種多樣的美。但語言仍像鴻溝,阻礙著人類的交流。

最近,F(xiàn)acebook用人工智能對翻譯系統(tǒng)進行了一次重大改造。

他們的工程師發(fā)現(xiàn),網(wǎng)站上對帖文和回復(fù)進行翻譯的按鈕每天會被點擊數(shù)十億次,翻譯動作有數(shù)千個方向(比如中英互譯,英文到中文是一個方向,反之又是另一個方向)之間。

Facebook有新技術(shù)?或可助人類彌合語言鴻溝



Facebook有新技術(shù)?或可助人類彌合語言鴻溝

如此巨量的翻譯工作,F(xiàn)acebook一直以來做的卻不好。他們過去使用的統(tǒng)計機器系統(tǒng),翻不準俗語,識別不了錯字和縮寫,無法理解上下文,很難準確翻譯帖文的意圖。于是,工程師們用改用一種名叫“帶注意力的長短時記憶”(Long Short-Term Memory with attention, LSTM) 的深度學(xué)習技術(shù),設(shè)計了一套人工智能翻譯系統(tǒng)。

目前,新的神經(jīng)機器翻譯系統(tǒng)已完全取代了過去的機翻系統(tǒng),部署到Facebook網(wǎng)站、Instagram以及其他產(chǎn)品中。改造的效果顯著:按照業(yè)界公認的BLEU標準,F(xiàn)acebook新翻譯系統(tǒng)各種語言互譯得分比舊系統(tǒng)提高了11%。

人際溝通大多通過語言完成。而當參與方不使用統(tǒng)一語言,溝通就必須通過翻譯。因此翻譯系統(tǒng)的準確度極大影響著溝通的成果。但遺憾的是,絕大多數(shù)網(wǎng)上和手機上的翻譯網(wǎng)站和軟件,背后的技術(shù)都來自機器翻譯。

通常,機翻系統(tǒng)對常見的單詞、短語和句法簡單的句子翻譯效果較好。如果一句話就是主謂賓,比如“我吃米飯”,系統(tǒng)翻譯成 “I eat rice”,這沒問題。

Facebook有新技術(shù)?或可助人類彌合語言鴻溝

但比如中日互譯、或者下圖中土耳其語和英文互譯,原文的語言和翻譯后語言在句法上有很大的差別,機器翻譯就會捉襟見肘了。下圖是機翻結(jié)果:

Facebook有新技術(shù)?或可助人類彌合語言鴻溝

翻譯出的英文沒有語法錯誤,但還是不太容易懂什么意思。這是因為機翻會把句子拆成一個個字段,結(jié)果就是把一個個字段的翻譯放出來,沒有對目標語言的語序、語法和表達習慣進行優(yōu)化。

人工智能怎樣做到更準確、更有人味兒地翻譯呢?

維基百科解釋, LSTM是一種在時間上遞歸神經(jīng)網(wǎng)絡(luò) (Recurrent Neural Network),適合于處理和預(yù)測時間序列中間隔和延遲相對較長的重要事件。翻譯正好是這種類型的工作,因為很長的一句話,可能后半段是對前半段的邏輯呼應(yīng),但機翻系統(tǒng)根本不記得前面說的是什么。

LSTM能記住整句話的內(nèi)容,對句子的上下文進行反溯,理解邏輯,從而給出更精確、流利和地道的翻譯結(jié)果,如下圖:

Facebook有新技術(shù)?或可助人類彌合語言鴻溝

“注意力”(attention) 也是深度學(xué)習里一個很有趣的機制,它有點像人類觀察事物時眼神的聚焦,鍋里有菜,你會自動把更多注意力分配到菜上而不是鍋或者鍋柄。

注意力能夠幫助新系統(tǒng)留意一些在標準英語辭典里沒有出現(xiàn)的詞,這些詞很有可能是縮寫和短語,比如idk (I don’t know)、tmrw (tomorrow),也有可能是網(wǎng)絡(luò)用語。當神經(jīng)機器在句子里發(fā)現(xiàn)這樣的詞,會先留空不翻譯,分配一定的計算力,去其他詞庫和訓(xùn)練數(shù)據(jù)集查找這個詞的釋義,最后再翻譯出來。

不僅如此,研發(fā)團隊還利用了一些神經(jīng)網(wǎng)絡(luò)剪枝(保留重要的權(quán)重)和壓縮編碼的算法,極大地降低神經(jīng)翻譯系統(tǒng)的詞匯表大小,減小了計算量,但沒有拉低翻譯精度。

搞定了翻譯系統(tǒng),并不是終點,工程師們還要把它部署到Facebook數(shù)十億用戶量級的后端系統(tǒng)中去。開發(fā)了深度學(xué)習框架Caffe的Facebook研究科學(xué)家賈揚清,已經(jīng)帶隊開發(fā)出了更注重模塊化,利于移動端和大規(guī)模部署的Caffe2。在新框架上運行,神經(jīng)翻譯系統(tǒng)的效率提升了2.5倍。

由于深度學(xué)習技術(shù)的進展,神經(jīng)機器翻譯在近年越發(fā)流行,并已進入許多流行的產(chǎn)品中,開始幫助人們更好地溝通。微軟推出的翻譯軟件Microsoft Translate,讓溝通多方像用微信一樣加入群聊,自然對話并獲得各自的翻譯,備受好評。

Facebook有新技術(shù)?或可助人類彌合語言鴻溝

去年,全球5億人使用的Google Translate服務(wù)中部署了神經(jīng)翻譯機器。當時PingWest品玩用一些經(jīng)典中英段落測試互譯,仍會出現(xiàn)奇怪的翻譯:

In my younger and more vulnerable years my father gave me some advice that I’ve been turning over in my mind ever since.

“Whenever you feel like criticizing anyone,”he told me,”just remember that all the people in this world haven’t had the advantages that you’ve had.”

人工翻譯:

我年紀還輕,閱歷不深的時候,我父親教導(dǎo)過我一句話,我至今還念念不忘。

“每逢你想要批評任何人的時候,”他對我說,“你就記住,這個世界上所有的人,并不是個個都有過你那些優(yōu)越條件?!?/p>

Google神經(jīng)機器翻譯(去年):

在我更年輕,更容易年,我的父親給了我一些建議,我一直在我心中從此翻身。

“每當你覺得批評任何人,”他告訴我,“只記得,所有的在這個世界上的人都沒有,你有過的優(yōu)勢?!?/p>

時隔一年之久再去測試,效果已經(jīng)好了很多:

在我年輕,更脆弱的歲月里,我父親給了我一些建議,自從我一直在轉(zhuǎn)過頭來。

“每當你想批評任何人,”他告訴我,“只要記住,這個世界上所有的人都沒有你的優(yōu)勢。”

這是由于神經(jīng)機器翻譯后端的深度學(xué)習系統(tǒng)學(xué)習能力比統(tǒng)計機更強。隨著輸入的數(shù)據(jù)源,以及使用的人越來越多,它能不斷提升翻譯技巧。Facebook用戶剛剛超過20億,每天都有超過13億說不同語言的人在上面分享活動、發(fā)圖片、評論以及點贊。現(xiàn)在,F(xiàn)acebook翻譯后端已經(jīng)完全遷移至神經(jīng)機器翻譯,這些訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)每天處理多達45億次翻譯請求。

未來,F(xiàn)acebook打算引入一些更先進的神經(jīng)網(wǎng)絡(luò)架構(gòu),比如卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Networks, CNNs)。測試結(jié)果發(fā)現(xiàn)使用CNN進行英法互譯的BLEU得分比LSTM進一步提升了12%。不僅如此,他們也在嘗試一些更難的挑戰(zhàn),比如多語種(而非雙語種)翻譯。

屆時,基于神經(jīng)網(wǎng)絡(luò)的翻譯系統(tǒng),將在精度、地道程度、多語種翻譯能力等更多維度上超過和取代統(tǒng)計機,甚至人工翻譯——就目前來看,取代這些工作可能是人工智能為數(shù)不多的壞處之一。


免責聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,僅代表作者個人觀點,與本網(wǎng)無關(guān)。文中內(nèi)容僅供讀者參考,并請自行核實相關(guān)內(nèi)容。如用戶將之作為消費行為參考,本網(wǎng)敬告用戶需審慎決定。本網(wǎng)不承擔任何經(jīng)濟和法律責任。