機(jī)器翻譯的道路還任重道遠(yuǎn)。機(jī)器翻譯為什么會(huì)出錯(cuò)呢?原因是因?yàn)槿伺c人之間溝通中處在一個(gè)語(yǔ)境里,說話過程中,根據(jù)不同的情況大部分會(huì)省略主語(yǔ)、謂語(yǔ)、賓語(yǔ)等。人與人之間直接溝通過程中,因?yàn)樘幵谝粋€(gè)語(yǔ)境里,即便省略也能夠去連接上下意思,能夠去理解,而機(jī)器翻譯他翻譯的就是所說的、所寫的部分,省略的部分就會(huì)不翻譯。這僅僅是機(jī)器翻譯錯(cuò)誤的一個(gè)案例,對(duì)于稍微長(zhǎng)一些的一句話,機(jī)器翻譯會(huì)因?yàn)榫渥映煞峙帕?、兩個(gè)語(yǔ)種詞性差異等多種原因出現(xiàn)錯(cuò)誤。
目前的機(jī)器翻譯純粹是走算法和統(tǒng)計(jì)的路線。即跨語(yǔ)言人工智能核心要素在于兩點(diǎn):一是NMT(神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù)),二是海量的高質(zhì)量語(yǔ)料。這跟真正的語(yǔ)言學(xué)并沒有什么關(guān)系。
GNMT沒有利用語(yǔ)言學(xué)的原因就是:語(yǔ)言本身就是規(guī)律性極低。或者說人類對(duì)語(yǔ)言學(xué)及人腦處理語(yǔ)言技術(shù)還沒有掌握其規(guī)律。人工智能的可行性就是掌握大數(shù)據(jù)并且發(fā)現(xiàn)其中之規(guī)律,而對(duì)于難尋規(guī)律的語(yǔ)言來(lái)說谷歌僅僅是掌握了目前僅有的數(shù)據(jù)。它不是真的掌握了這門語(yǔ)言,而是每當(dāng)有人給出新句子,它就從翻譯好的數(shù)據(jù)庫(kù)里“學(xué)習(xí)”,根據(jù)已有的翻譯 “猜”這一句的意思,意思就是“識(shí)別”出最有可能的已有翻譯。正確地將英文翻譯成中文,但它仍然不懂英文,也不懂中文。實(shí)際上每天都有大量的新的數(shù)據(jù)更新,涌現(xiàn)出來(lái),關(guān)于之前沒有“接觸”過的新數(shù)據(jù),GNMT就無(wú)法翻譯。
機(jī)器翻譯在重大場(chǎng)合犯錯(cuò)其實(shí)不是一次兩次,比如科大訊飛、搜狗等都因?yàn)闄C(jī)器翻譯出過事故。在2016年的烏鎮(zhèn)互聯(lián)網(wǎng)大會(huì)上,王小川首秀搜狗實(shí)時(shí)機(jī)器翻譯,就在演示過程中不斷出現(xiàn)“中式英語(yǔ)”的尷尬,甚至將“飛機(jī)落地”翻譯成了有“墜機(jī)”之意的“fell down”。
因此,如果要說機(jī)器翻譯的作用,它的真正作用就是解決極其簡(jiǎn)短的翻譯,或者只是為了了解句子的大意,但是這也不能保證句子出現(xiàn)翻譯錯(cuò)誤的情況。機(jī)器翻譯更多的是針對(duì)專業(yè)翻譯人員的使用,在機(jī)器翻譯的基礎(chǔ)上,再對(duì)機(jī)器翻譯錯(cuò)誤的部分進(jìn)行修改,縮短翻譯時(shí)間,提高翻譯效率。
可以看出,目前人類對(duì)語(yǔ)言的研究及人腦如何進(jìn)行語(yǔ)言的模糊識(shí)別和判斷沒有最終明了的情況下,即便機(jī)器有數(shù)據(jù)庫(kù)支撐,但對(duì)于規(guī)律性極低的語(yǔ)言機(jī)器翻譯達(dá)到100% 的準(zhǔn)確率是完全不可能的。語(yǔ)言是載體,傳遞的真實(shí)信息才是內(nèi)核。翻譯工作根本上不是純粹依靠具體的語(yǔ)言工作在做翻譯,而是翻譯人員從多年來(lái)所掌握的與人有關(guān)的知識(shí)庫(kù)中提取所需要的知識(shí),根據(jù)被翻譯人員話中的隱喻及其微表情來(lái)做具體處理的。
另外,現(xiàn)有的翻譯軟件只能是在周圍環(huán)境安靜、說話者音量語(yǔ)速適中才能正常使用。在大型會(huì)議中,機(jī)器翻譯同步翻譯在屏幕上,人們對(duì)著屏幕讀文字,對(duì)于信息接受者而言視覺效果遠(yuǎn)不如聽覺效果,吸收率低。
機(jī)器翻譯的原理與局限
作者:江蘇翻譯小編(南京翻譯公司)
發(fā)布時(shí)間:2019-08-12 00:02????
瀏覽量: