茉莉花新闻网

中華青年思想與行動的聚合地

你的文字,看不懂!是机器翻译出来的吗?

2021-01-19

这是我非常困惑的事情,本不愿意在大家面前多说,但是事已至此被坑了一遍又一遍,想了很久,本不想占用果壳头条的我不得不说——为什么用机器翻译出来的内容,总是让人看不懂啊!

网友试图将郑爽的微博翻译成英文,竟莫名通顺了起来。吃瓜群众不免猜测, 郑爽的微博之所以看不懂,或许是机器翻译的结果 | 截图自豆瓣@chemistry

 机器翻译已经很努力了!

古早的机器翻译,通常是直接把句子拆成几块,然后一块一块去翻译。

但人类翻译并不是这样。我们通常会通读整个句子,来理解其中的含义,再用另外一种语言来表达相近的意思。传统机翻与人类的阅读方式不同,是翻译不顺滑的一个主要原因。

后来,科学家们找到了一种名叫“神经机器翻译”(Neural Machine Translation,NMT)的新方法,尽量贴近人类的翻译方式。

PSd2S2io9kYKcXMZm3LPqvHGZhHC0 t0bHTAMWrUOV2TAwAAggAAAEpQ

“我是学生”的英文翻译为法文 | TensorFlow

这类算法在看到一个句子之后,会用编码器把整句话转换成一个向量,也就是用一串数代表这句话的含义。然后,再用一个解码器,把这串数字转换成目标语言。

这样的 AI,能够更好地捕捉字与字之间的相互依赖关系,哪怕两个字之间的距离比较远,中间隔了一些字,也可能考虑到句子结构等等因素。

那么,编码器与解码器这个组合的能力如何修炼?当人类源源不断地给算法投喂文本数据(大多是双语对照数据),它们便能从中归纳更多的规律,让翻译技能变得越来越强。

342DyjI 2Y581pWWTpMzBYatldaakUu6Z3OovOkR1KAfBAAAPwUAAEpQ

即使不断学习,机器翻译还是会有许多看不懂的结果 | 谷歌翻译

但还是有各种 bug 

不过,一只 AI 就算学得再多,也只是给出统计学意义上的答案,并不能真正理解语言当中的逻辑关系。比如,谷歌翻译曾经有过一个经典错误。输入“北大不如清华”,得到“Beijing University is better than Qinghua”。而人类翻译不太可能出现这样的错误。

北大不如清华 | 谷歌翻译

除此之外,AI 要把中文翻译成另外一种语言,还会遇到另外一个难点——如何分词

汉语里的词汇常常由两个字或者更多个字组成,但词与词之间却没有间隔。熟悉这种语言的人类不易出错,AI 却要先了解哪些字会组成词语或固定搭配,才能实现更准确的翻译。

近年有不少出色的分词工具陆续诞生,比如百度工程师 Sun Junyi 开发的结巴分词、清华出品的 THULAC、北大出品的 pkuseg 等等。它们不负责翻译,但也是用大量文本训练而成的 AI。

当然,再机智的分词AI也未必能拯救“帝国主义把我们的地瓜分掉”“我们中出了叛徒”这些刁钻句子的机翻。

我们中出了叛徒 | 弹丸论破

另外,机器翻译还逃不开一个熟悉的问题:每个词都认识,整个句子也知道什么意思,但总觉得不像人话。

嘿,我的老伙计,这不是翻译腔吗?

带有翻译腔的文字往往是在形式上过于忠于原文,忽视了翻译出来的语言本身的表达习惯。在不合适的情境下,翻译腔会让人觉得不自然、费解甚至可笑。这种现象在人工翻译中已经越来越少见,但机器翻译往往对长句子、上下文语境难以判断,容易出现“翻译腔”的结果,有时候还不如直接读原文理解得更好。

yneeNQKiFXdzDEupmPh8muTn3NIHAfSHT8SLemWGGYJ AgAA8wAAAEpQ

忽视中文表达习惯的一个典型 | 编辑供图

 看不懂?译后编辑很重要!

机器翻译大大提高了信息传递的效率,如果只需要提供大概的意思,直接使用机器翻译的输出译文,通常不会有什么大问题。但在正式的文本,甚至文学著作里,如果有人敢直接使用机翻结果,那真可谓勇士了。

对翻译效率要求较高的文字内容,“机器翻译+人工编辑”是翻译得又快又准确的方法之一。这一需求催生了一个新的职业——译后编辑(Postediting)。

译后编辑的工作看起来就像是让机器翻译“说人话”,不过这个过程并不容易:一方面要快速识别机翻译文中的特征错误,另一方面要根据译文的用途,确定和修饰翻译的结果

有提供译后编辑服务的公司 | eliteasia.co

你可能会问:这和翻译审校的工作不是差不多吗?实际上,差别挺大的。除了对翻译前后的语言有基础的理解,译后编辑还需要掌握机翻的原理知识和基本的编程技能,从而为机器翻译编制相关的词典。

作为信息交流的工具,机器翻译会越来越聪明,输出的句子也会越来越清晰。不过,语言本身不只是工具,译后编辑的工作正是将机器翻译的高效与人工翻译的准确结合在一起,让人能够快速获得看得懂,甚至是有风格、有情绪的信息。

毕竟,如果有了译后编辑,应该就不会这种翻译了吧👇

7KVarXio01wwF1pmT9hSTeTgE9S5ipopOVvPzbAmSf5UAgAAGgMAAEpQ

图 | Twitter:@Boris Lee

参考文献

[1] Luong, Minh-Thang, Eugene Brevdo, and Rui Zhao. "Neural machine translation (seq2seq) tutorial." (2017).

[2] 胡开宝,李翼.机器翻译特征及其与人工翻译关系的研究[J].中国翻译,2016,37(05):10-14.

[3] 罗晓蓉.论异化翻译与翻译腔、翻译症、翻译体[J].渭南师范学院学报,2014,29(24):20-22.

[4] 冯全功,崔启亮.译后编辑研究:焦点透析与发展趋势[J].上海翻译,2016(06):67-74+89+94.

[5] Garcia, Ignacio. "Translating by post-editing: is it the way forward?." Machine Translation 25.3 (2011): 217.


作者:栗子,Owl

编辑:麦麦,Diana Artenis

 一个AI 

本AI虽然不是人,但说的都是人话。

a5bQ7Qgl3TsGYTzYmW6CkBIXBoPL9p15oCsh71eEAM4BAAAXwEAAFBO
4hlVjEl4MEgCN QVIP85k8pZ1jh1q 6yNz2Cy02g2jQ4BAAAWwEAAEpQ

本文来自果壳,未经授权不得转载.

如有需要请联系[email protected]

CKvtCVS2an0DnAtOe5ERbZFfgOdSjhb

同类信息

查看全部

茉莉花论坛作为一个开放社区,允许您发表任何符合社区规定的文章和评论。

茉莉花新闻网

        中国茉莉花革命网始创于2011年2月20日,受阿拉伯之春的感召,大家共同组织、发起了中国茉莉花革命。后由数名义工无偿坚持至今,并发展成为广受翻墙网民欢迎的新闻聚合网站并提供论坛服务。

新闻汇总

邮件订阅

输入您的邮件地址:

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram