|
您的位置: 首頁 > 網(wǎng)站資訊 > 谷歌神經(jīng)翻譯引擎進(jìn)步了多少? |
谷歌神經(jīng)翻譯引擎進(jìn)步了多少?發(fā)布日期:2017/7/9
美國時間9月27日,谷歌公布推出谷歌神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯體系(GNMT),采用神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(NMT)技術(shù)大幅提拔機(jī)器翻譯的水平,《麻省理工學(xué)院技術(shù)評論》雜志MIT TR 報道稱“幾乎與人類無異”。
效果是讓人耳目一新的。翻譯界偕行Michael Zhang在其微信公眾號“譯言千金”做了一次谷歌翻譯引擎新老版本和人工翻譯的對比:下文的“GT1”代表2016年3月份GT機(jī)譯效果;“GT2”代表2016年10月中旬GT機(jī)譯效果。
老版本的谷歌譯文是讓人你認(rèn)識的“機(jī)器文”:詞是對的,整句必要你在腦子里調(diào)整語序后再理解。新版本的譯文和人說話的語序幾乎一樣,和人工翻譯沒有大區(qū)別。 觸手可及的體感轉(zhuǎn)變觸動了用戶和媒體的心弦:它就是我們通常認(rèn)為的那個會說人話的人工智能,科技的力量很推翻,至少“推翻了翻譯行業(yè)”。 谷歌引擎到底提高了多少?谷歌在發(fā)表的論文中列舉了幾個語向的翻譯錯誤降落率。 其中英語到西班牙語降落了87%,英文到中文降落了58%。 “錯誤率降落”是怎么回事?我的同事懸臂箱,商鵲網(wǎng)CTO魏勇鵬在接受雷鋒網(wǎng)的記者采訪時詮釋了谷歌是如何做的: 比如漢譯英。谷歌隨機(jī)從中文維基百科遴選500個句子,讓基于統(tǒng)計的老引擎PBMT、基于神經(jīng)網(wǎng)絡(luò)的GNMT和諳練譯員各自做一次上海做網(wǎng)站站百度搜索排行,譯文質(zhì)量打分從0到6分不等,6分為滿分。效果就是老引擎得分3.694,新引擎得分4.263,人工翻譯得分4.636。 錯誤率計算體例為:
勇鵬告訴記者:“一、從3.6提拔到4.2,和從4.2提拔到4.6,這兩個所必要支出的努力程度,后者可能是前者的10倍以上都不止,但Google就簡單的線性計算為縮小了60%的差距。二、中英的人工翻譯,得到的評分也就只是4.6,比英西的人工翻譯要低得多,這點說明用來作為基準(zhǔn)的‘人’未必是靠譜的,以它為基準(zhǔn)來評估也未必靠譜! 加拿大國家研究委員會NRC多語言處理研究組陳博興研究員在他的微信同伙圈發(fā)文給了一個評價: “谷歌所做的事情是將這兩年學(xué)術(shù)界神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的多種技術(shù)做了一個整合集成,行使他們壯大的工程能力和計算能力,搭了一個很好的體系。他們的單體系比我行使開源訓(xùn)練的體系在統(tǒng)一個數(shù)據(jù)集上要好了也許3個多BLEU值!咀ⅲ築LEU標(biāo)準(zhǔn)是美國商務(wù)部部屬的國家標(biāo)準(zhǔn)與技術(shù)研究所NIST舉辦的一項機(jī)器翻譯研究水平評測,其原理是比較機(jī)譯效果和人譯效果的相似度,完全同等得分為100(當(dāng)然不同的人的翻譯很難“完全同等”,所以得分100為理想值)。2008年NIST的英文-中文的機(jī)器翻譯評測效果,谷歌翻譯得分41.42!3個多BLEU的差距,假如由人來判斷,細(xì)心看的話,是能感覺到的,但是也就是一個小的提高,談不上突破什么的。 “對于他們(谷歌發(fā)表)的文章,我覺得有兩個遺憾的地方:1.所采用的技術(shù)都是之前發(fā)表過的,沒有全新的技術(shù)(對google的要求天然要高一點,呵呵)。2. 假如我們有那么大的計算和工程能力以及那么多人力可以投入,即使只是整合已有技術(shù),我覺得我們可以做得更好,比如我會加上清華大學(xué)劉洋他們首先采用的風(fēng)險訓(xùn)練方法來進(jìn)行訓(xùn)練,等等! 陳先生提到的劉洋在接受媒體采訪時淡淡地說:“谷歌做的其實是把目前學(xué)術(shù)界的一些技術(shù)集成在一路。谷歌自己的數(shù)據(jù)、運(yùn)算能力,還有工程師水平都特別很是高,所以他們通過集成做了一個特別很是強(qiáng)的體系,這個體系和傳統(tǒng)方法相比有比較明顯的進(jìn)步。但媒體的報道有點夸張,并不能說機(jī)器翻譯已經(jīng)接近人的水平,或者完全庖代人。谷歌這項工作還達(dá)不到 ‘推翻性突破’ 這種程度。” 專業(yè)人士的評價和通俗用戶的體感不完全同等。于是懂行的故意人找出了一些風(fēng)趣的谷歌翻譯案例。加拿大博芬翻譯公司的趙杰打算寒假回過年,在網(wǎng)上查詢找到一家合適的酒店,各種條件都不錯,但是看到價錢時含糊了,“The price is quite high”。老趙找到酒店的原版中文介紹,原文是“性價比相稱高”,谷歌給的譯文把意思給弄反了。 谷歌新翻譯引擎在穩(wěn)當(dāng)處理原文譯文語序的同時,出現(xiàn)了一些莫名其妙的題目。 引擎把“美美”翻成了“美國和美國”,而一個標(biāo)點或者一個近義詞的改變,會讓它的譯文發(fā)生很大的轉(zhuǎn)變,甚者譯文會意思迥異。相比之下,采用統(tǒng)計原理訓(xùn)練的有道翻譯則把“我想美美地睡一覺”和“我要美美地睡一覺”給出了同樣的英文譯文。 “谷歌的新引擎的錯誤無法追溯!敝锌圃褐鲃踊膹埣铱「毖芯繂T說,多層神經(jīng)網(wǎng)絡(luò)的算法模型的計算過程是一個黑盒子,人無法理解息爭釋程序主動學(xué)習(xí)的過程。“谷歌的新引擎在語言流利性有大幅度進(jìn)步,但是在原文忠誠度上沒有顯明轉(zhuǎn)變。”張家俊說。 普通化的話來講,統(tǒng)計型翻譯引擎的基礎(chǔ)數(shù)據(jù)是雙語對齊的詞、短語和句子,數(shù)據(jù)對齊的精度越高翻譯質(zhì)量也越高。但是數(shù)據(jù)精度越高,也意味著在現(xiàn)實應(yīng)用中命中的概率也越低。曩昔以谷歌的壯大計算能力和的語言數(shù)據(jù),也無法在窮盡各種語境、各種文句上可以再上一個臺階,谷歌的統(tǒng)計型翻譯引擎的BLEU值好幾年維持在40+的水平而無法顯明進(jìn)步。 神經(jīng)網(wǎng)絡(luò)的算法不再依靠人對語言的理解(詞、短語和句子的對齊譯法),在許多語種中把詞切分到字母的層級(即Subword),比如詞根、后綴等,對原文各個詞之間的關(guān)系也計算得更加過細(xì)。谷歌新翻譯引擎的神經(jīng)網(wǎng)絡(luò)達(dá)到了八層,計算的過程耗費(fèi)了偉大的計算能力。這有賴于谷歌本身開發(fā)專門面向深度學(xué)習(xí)的TPU處理器,其單位耗電量的性能達(dá)到GPU和FPGA的10倍,且不外賣。 “神經(jīng)機(jī)器翻譯NMT體系是個好東西,但相對傳通盤計機(jī)器翻譯SMT來說,體系部署所需硬件投入至少漲十幾倍。舉個例子,拋開翻譯性能而言,像采用我們組裝的支撐4塊GPU的服務(wù)器,NMT體系在如許一臺價值4萬多元的服務(wù)器上運(yùn)行速度和吞吐,才接近于SMT體系在3000多元的PC機(jī)上的性能。假設(shè)用戶為了知足大規(guī)模吞吐和翻譯工作的話,比如必要100臺機(jī)器的話,基于小牛翻譯SMT版本只必要投入30多萬硬件,但知足同樣的性能假如采用小牛翻譯NMT體系可能必要投入400多萬硬件。真的期待硬件成本繼承降落,才能真正讓小牛翻譯NMT體系真正走入中小企業(yè)啊。”小牛翻譯的創(chuàng)始人、東北大學(xué)朱靖波教授感觸道。 谷歌新引擎的發(fā)布讓機(jī)器翻譯行的專業(yè)人士達(dá)成了同等:神經(jīng)網(wǎng)絡(luò)算法的翻譯引擎庖代傳統(tǒng)引擎是行業(yè)趨勢。但“庖代”是拋棄照舊迭代?這是一個龐大的題目,它意味著諸多傳統(tǒng)機(jī)器翻譯研究學(xué)者和行業(yè)從業(yè)者如何跨入下一步? 張家俊在10月下旬發(fā)表了一篇論文,宣布了他做的一項研究。他使用了一些傳統(tǒng)詞典的雙語數(shù)據(jù)支撐神經(jīng)網(wǎng)絡(luò)的翻譯引擎。因為算法的不同,這些詞典的詞對齊數(shù)據(jù)無法直接被神經(jīng)網(wǎng)絡(luò)的引擎使用。佳俊找到一些使用這些詞的公開語句,行使傳統(tǒng)引擎翻譯成英文,再把這些復(fù)活成的數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)引擎的源數(shù)據(jù)。在訓(xùn)練后的翻譯引擎測試數(shù)據(jù)中,假如有100個低頻詞被詞典覆蓋,接近80個可以得到譯文,匹配度接近80%。 “把現(xiàn)有的詞典都照你的方法處理成神經(jīng)網(wǎng)絡(luò)引擎的語料,它的詞的正確度就能大幅度進(jìn)步嗎?”筆者問張先生。家俊說:“不是的。我給的數(shù)據(jù)是傳統(tǒng)翻譯引擎的譯文,有很大的噪音,因此不能說數(shù)據(jù)越多結(jié)果越好! 張家俊說傳統(tǒng)研發(fā)的積累,讓他得以在新舊引擎之間找到了一些可以繼續(xù)并創(chuàng)新的方法,為神經(jīng)網(wǎng)絡(luò)翻譯引擎的提高提出補(bǔ)缺的新思路。 陳博興研究員說:“機(jī)器翻譯在可以預(yù)見的將來庖代不了人工翻譯。尤其是如今的人工翻譯的市場跟機(jī)器翻譯的市場基本上不重合,人工翻譯對準(zhǔn)的是高端市場,要求很的翻譯需求,而機(jī)器翻譯則是1,要求不那么的翻譯情景,比如旅游,比如網(wǎng)頁欣賞,比如信息監(jiān)控等等。2,機(jī)器翻譯幫助專業(yè)翻譯人員進(jìn)步服從。假如中國對交際流的程度達(dá)到歐美如今的程度,那么中國的高端翻譯市場將會是無比偉大的。有志于從事翻譯的同窗,放心勇敢地進(jìn)來吧! “舉例來說,理想的法律翻譯是100分,現(xiàn)實工作達(dá)到95或98分就很好了,80分、85分、95分的質(zhì)量,收入/報酬的差別不是以五個百分點計算,而是以倍數(shù)計算。PE(注:譯后編輯,一種新的翻譯工作模式,譯員基于機(jī)器翻譯的效果進(jìn)行校對編輯優(yōu)化)假如沒有能力提拔那幾個百分點,那和機(jī)器翻譯沒啥差別,報價、收入一樣上不去!蔽⒉┥系囊粋資深法律譯者,@readthinker99 對譯后編輯的看法。 神經(jīng)網(wǎng)絡(luò)翻譯引擎NMT對翻譯行業(yè)的益處是它給出的效果更吻合人的敘述風(fēng)俗,可用的部分更多,而從事譯后編輯的譯員可以更專注在垂直的專業(yè)術(shù)語短語上給出好的翻譯,是一石二鳥服從進(jìn)步成本降低的好事情。 —————————— 后記: 大賭注 面對神經(jīng)網(wǎng)絡(luò)計算的黑盒子,身在現(xiàn)實研究和開發(fā)中的專家基本上都和陳博興老師持雷同態(tài)度:機(jī)器翻譯離理解人類語言還很遠(yuǎn),可見的時間里跨語種的深入交流必要借助有專業(yè)外語能力的人工幫助。由于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)體例和基于統(tǒng)計的機(jī)器翻譯算法一樣,都沒有涉及到語義的理解。無論如今神經(jīng)翻譯引擎讀起來有多接近人的話語,這個軟件其實“不理解”它計算出來的譯文的意思。 人類對本身身認(rèn)知過程的運(yùn)轉(zhuǎn)機(jī)制,還處于很淺層的研究階段,腦科學(xué)還無法還原大腦在思考一個題目的心理過程。英國物理學(xué)家、認(rèn)知學(xué)家戴維·多伊奇教授的看法是:“由于在其核內(nèi)心有一個懸而未決的哲學(xué)題目:我們還不了解創(chuàng)造性如何運(yùn)作!彼匀祟愐簿蜔o法復(fù)制創(chuàng)造的過程。這幾乎是人對自身認(rèn)知、對人工智能AI的清醒的一個出發(fā)點,但是神經(jīng)網(wǎng)絡(luò)研究者給了另外一條路徑。 清華大學(xué)的韓鋒先生給一本譯著《重新定義智能》作序著文《讓“人腦”走下神壇》,該文寫于Alphago與李世石大戰(zhàn)的過程中。其重要論點是,物理研究已經(jīng)知道事物或體系有自相似性,基于一種重整化群的方法,使用神經(jīng)網(wǎng)絡(luò)的算法和夠大的計算能力,可以計算出有計算機(jī)智能的邏輯,并得以詮釋對象,比如Alphago克服了李世石。(詳細(xì)闡述過程請參見原文) 韓先生的點出了大部分機(jī)器翻譯專家面對的一個隱蔽題目:他們認(rèn)為以可靠的能力和認(rèn)知,機(jī)器無法理解人。但是誰也不能確認(rèn)下一步神經(jīng)網(wǎng)絡(luò)會算出什么?那么韓鋒先生提出來得可能性不能被證偽;艚、馬斯克說的機(jī)器威脅人類,也同樣不能被證偽。 真風(fēng)趣啊。AI時代,人類認(rèn)知學(xué)的大家伙廣告策劃,擁有大數(shù)據(jù)的公司都在面對、覬覦或憂慮有一個潘多拉的盒子被打開。更多的人則充滿熱情和信念、欣喜地預(yù)備歡迎新的AI的提高,并計算現(xiàn)有的數(shù)據(jù)和能力,在那能做什么。萬一沒實現(xiàn)呢,我們也不會失去將來。 (本文得到了我的同事魏勇鵬、胡日勒的專業(yè)支撐) 作者:鄒劍宇 |
其他相關(guān)文章 |
|
|
|
||||||||
Copyright 2012-2025 上海蒙狼網(wǎng)絡(luò)科技有限公司 www.aqdzp.cn All Rights Reserved |