Google發布神經網絡機器翻譯系統:支持中英

掃碼閱讀手機版

來源: 快科技 作者:上方文Q 編輯:張思政 2016-09-29 17:20:27

  Google今天宣布發布Google神經網路機器翻譯系統(Google Neural Machine Translation),簡稱GNMT,使用當前最先進的訓練技術,能夠實現到迄今為止機器翻譯質量的最大提昇。

  機器語言翻譯早已有之,而十年前Google推出的Google Translate帶來了全新突破,其背後的核心算法是基於短語的機器翻譯。

  在那之後,機器智能的快速發展大大推動了語音識別和圖像識別的提昇,但改進機器翻譯、使之盡量接近人工翻譯,依然充滿挑戰。

  幾年之前,Google就開始使用循環神經網絡來直接學習一個輸入序列(如一種語言的一個句子)到一個輸出序列(另一種語言的同一個句子)的映射。

  基於短語的機器學習會將輸入句子分解成詞和短語,然後對其中的大部分進行獨立翻譯。

  神經網絡機器翻譯則將整個輸入句子視作翻譯的基本單元,優點是所需調整更少,很快就在中等規模的公共基准數據集上達到了與基於短語的翻譯系統不相上下的准確度。

  此後研究者不斷改進神經網絡機器翻譯系統,比如模擬外部對准模型來處理罕見詞,使用『注意(attention)』來對准輸入詞和輸出詞,以及將詞分解成更小的單元以應對罕見詞。

  如今,神經網絡機器翻譯系統已經克服了超大型數據集上的許多挑戰,在翻譯速度和准確度上都已足夠為用戶帶來更好的服務,比如英語和法語、英語和西班牙語的互譯翻譯質量已經達到90%左右,中英互譯也在80%上下。

  這則動圖就展示了Google神經網絡機器翻譯系統將一個中文句子翻譯成英語句子的過程。

  首先,該網絡將這句中文的詞編碼成一個向量列表,其中每個向量都表示了到目前為止所有被讀取到的詞的含義(編碼器Encoder)。一旦讀取完整個句子,解碼器就開始工作,一次生成英語句子的一個詞(解碼器Decoder)。

  為了在每一步都生成翻譯正確的詞,解碼器重點注意了與生成英語詞最相關編碼的中文向量的權重分布(注意『Attention』;藍色連線的透明度表示解碼器對一個被編碼的詞的注意程度)。

  在雙語評估者的幫助下,通過在維基百科和新聞網站的例句測定,Google發現:在多個樣本的翻譯中,神經網絡機器翻譯系統將誤差降低了55-85%甚至更多。

  特別地,Google神經網絡機器翻譯系統已經投入到一個非常困難的中英語言對翻譯中。

  現在,移動版和網頁版的Google Translate的中英翻譯已經開始完全使用神經網絡機器翻譯系統,每天處理大約1800萬條翻譯,未來幾個月還會擴展到更多的語言對上。

  當然,機器翻譯仍然不可能做到完美,Google神經網絡機器翻譯系統也會犯一些人類譯者永遠不會出的重大錯誤,例如漏詞和錯誤翻譯專有名詞或罕見術語,以及將句子單獨進行翻譯而不考慮其段落或上下文。

  無論如何,Google神經網絡機器翻譯系統仍然代表著一個重大的裡程碑。

下載津雲客戶端關注更多精彩

推薦新聞

我來說兩句

關於北方網 | 廣告服務 | 誠聘英纔 | 聯系我們 | 網站律師 | 設為首頁 | 關於小狼 | 違法和不良信息舉報電話:022-23602087 | 舉報郵箱:jubao@staff.enorth.cn | 舉報平臺

Copyright (C) 2000-2024 Enorth.com.cn, Tianjin ENORTH NETNEWS Co.,LTD.All rights reserved
本網站由天津北方網版權所有
增值電信業務經營許可證編號:津B2-20000001  信息網絡傳播視聽節目許可證號:0205099  互聯網新聞信息服務許可證編號:12120170001津公網安備 12010002000001號