佚名 發(fā)表于:14年07月16日 11:00 [轉(zhuǎn)載] 賽迪網(wǎng)
機(jī)器翻譯出錯鬧笑話的段子數(shù)不勝數(shù),但大數(shù)據(jù)的應(yīng)用卻令這種技術(shù)手段日趨完善。甚至有支持者認(rèn)為,機(jī)器翻譯終將取代人力,讓人類克服語言障礙交流。然而,技術(shù)真能參透人類語言的豐富和微妙之處嗎?
初級機(jī)器翻譯更像一部電子詞典,擅長翻譯單個字詞和簡單句子,但對多義詞卻束手無策。正因如此,盡管發(fā)展多年,純粹的機(jī)器翻譯仍然錯漏百出。大數(shù)據(jù)時代的來臨,可能徹底改寫這種局面。
輸入的文本資料越多,機(jī)器翻譯的準(zhǔn)確率越高。各門語言的情況不一樣,建立一個機(jī)器翻譯模式,通常需要3000萬個單詞或者100多萬個句子。多虧有聯(lián)合國和歐盟這樣的機(jī)構(gòu)存在,其翻譯人員歷經(jīng)多年積累起豐富的平行語料庫(也稱翻譯記憶庫),為機(jī)器翻譯研發(fā)人員省去不少麻煩。
這也解釋了以數(shù)據(jù)和資料龐大著稱的谷歌(584.78, -0.09, -0.02%)為何在機(jī)器翻譯領(lǐng)域表現(xiàn)卓越。谷歌的機(jī)器翻譯專有系統(tǒng)堪稱業(yè)界典范,能夠?qū)崿F(xiàn)63種常用語言的交互翻譯。
然而,人類語言如此復(fù)雜、微妙,遠(yuǎn)非平行語料庫能夠囊括。如果涉及比喻或者任何詩意的語言,就非常困難,專家表示,如果用到一個翻譯系統(tǒng)從未見過的雙關(guān)語,電腦只會字面直譯。
如果考慮各種語言的出處和文化差異,有些字詞無法翻譯,即所謂的不可譯性現(xiàn)象,則根本不能指望機(jī)器翻譯取代人工翻譯。
公司簡介 | 媒體優(yōu)勢 | 廣告服務(wù) | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會員注冊 | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.