当你兴致勃勃地在互联网上找到自己想要的资料时,面对一堆堆不认识的单词或符号,会是怎样一种心情呢?
科技的发展会帮助我们解决这种尴尬。过去十年来,技术使机器翻译得到了革新,通过人工智能计算机,机器翻译的能力越来越强,利用软件浏览各种语言网站的梦想正在实现。眼下,新的研究还在不断涌现。最近,南加州大学的科学家们利用军事中的密码学,把翻译视为一种“解码”过程。科学家表示,这种技术不但能翻译各种语言,甚至能破译海豚音和“外星人语言”。
发展过程
近十年才有突破
“科学家从上世纪50年代就开始研究机器翻译,但长期以来这项研究并未取得大的突破。”南加州大学的计算机科学家凯文·奈特说,最早,他和他的同事采用计算机编码方式,让机器进行翻译,但效果很差,电脑完整翻译一页内容需要一年时间。
“早期的机器翻译,比较像字典,计算机仅进行一个字一个字的转换,加上一些简单的语法规则。”谷歌翻译研发经理陈雍昇说,上世纪80年代个人电脑开始普及之后,机器翻译的技术才开始有了突破,不仅语法处理变得更为复杂完善,统计式的机器翻译技术也初步被使用。
十年前,机器学习的翻译方式开始出现,这是一种人工智能,机器自己可以学习,可以像人学外语一样,逐渐掌握语言的规则模式。凯文此前的同事,南加州大学的首席科学家弗兰兹·奥切加盟了谷歌公司,令谷歌翻译上升到新的高度。现在,在网页上只要按一个谷歌翻译键,网页整段文本就会立刻变成需要的文字。
“谷歌翻译是往计算机内输入大量的文字文本,包括原语言的文本,以及对应目标语言人工翻译的文本,”陈雍昇说,这两种语言文本,称为“平行语料”,机器会对海量的文本进行学习,查找各种语言模式,通过统计计算得到认为最为准确的翻译结果。
“这就好像联合国开会时,机器坐在翻译员后面看翻译员怎么翻译,一边看,一边学习,看了比如一万遍后,机器就知道该怎么翻译了。”凯文说,他们实验室所做的主要研究也和谷歌翻译的类似。
翻译原理
“机器像猴子一样聪明”
机器在学习过程中也需要老师,此时人类可以告诉机器一些语法规则。比如,英语中介词放在句子后面,中文却在前头,中文说“我在美国工作”,英语则是“我工作在美国”;阿拉伯语更不同,不是“主谓宾”结构,而是“谓主宾”结构,更像是“工作我在美国”。一个人很难掌握好这些规律,但只要往计算机中输入这些规则后,翻译机器很快就明白了。
此外,一些词汇有很多词义,比如英语中的“bank”,可以指“河岸”,也可以指“银行”。在这种情况下,机器可以通过对上下文的查看做出判断,如果上下文中有“船”这个词,机器就会翻译成“河岸”,如果有“取款”这个词,机器就会翻译成“银行”。
凯文说,比较难的情况是遇到中文成语。给外国人讲一个成语往往得讲完一个故事,但是计算机遇到成语第一次可能比较麻烦,之后就不难了。另外一个难处是比较长的词汇,在一些语言如芬兰语中,往往有着超过16个字母的词语,这时,机器就必须对其进行拆分,然后再进行翻译。“机器像猴子一样,很聪明。”凯文说。
技术缺陷
“英译汉好过英译日”
机器翻译虽然已经和十年前大不一样了,但依然存在很多缺陷。
同一个系统的语言比如英语和法语,因规则相近,所以较好翻译,但不同的语言系统就难了。在凯文等同事的研究中,“英语翻西班牙语很棒,英语翻汉语还行,英语翻日语就很差。”凯文说,“这就像人一样,我在日本呆了三年,日语还是不行,但学了两年汉语后,感觉已经可以了。”
陈雍昇表示,机器翻译依托庞大的平行语料库,有时会遇到一种语言和另一种语言之间翻译语料不足的情况。陈雍昇说,还有很多的技术难度需要解决,比如同义词的判断,如旅“行”和银“行”的“行”字意义不同,再如分词的判断,如“如果”和“汽水不如果汁好喝”里的“如果”意思不同,另外,还有同样内容的文档进行段、句、词、字的对齐等,都是机器处理的技术挑战。
不过,正是因为机器有着自我学习的智慧,随着计算机技术的进步,机器翻译会变得越来越好。
华译网翻译公司转载
|