Google 翻译:统治语言
所谓的机器翻译/电脑翻译,一直有着许多恶名。比如一个经典的例句叫做『Double click the mouse it will run.』被机器翻译过来变成了『两次咔嗒老鼠将跑掉』。我最早曾试验过金山快译,其译文绝大多数是 pure crap。这个诡异译文似乎就是出自金山快译,只可惜年代久远我已经不能完全模仿原误译的丑态,而且也无从考证了。
所以 Google Translate 功能刚一推出的时候,所有用户都惊呼:翻译的太好了!当然电脑始终是电脑,讲出的人话也始终不伦不类,说它好只是因为 Google Translate 的竞争对手比它更烂。于是 Google Translate 给出如下这种质量的译文,已经实属不易了。
对于大多数非专业领域的通用文章,再假如你只是想粗略了解一下什么意思,Google Translate 也无疑帮助许多英文(或其他外文)不好的人跨越了互联网上唯一的障碍(当然,某墙除外)。但是站在一个靠翻译吃饭的人的角度上,了解到机器翻译取得的如此长足的进步,心眼儿还是一紧(差点打成菊花一紧 -_-;;;),心想,别哥们儿哪天没饭吃了。虽然电脑的译文不通顺,有时候还会犯很多傻逼错误,但毕竟人不要钱,而且凑合凑合还能看懂。
一直以来机器翻译的思路是用模拟语法的算法,外加词汇对应。比如 Google Translate 以前的翻译程序有时就会把 In the house, on the table 之类的短语翻译成『在……里这个房子』『在……上这个桌子』,失败的语法、语序算法和失败的词汇表就这样跃然纸上,让你不禁拍案叫绝。
Google Translate 之所以取得成功(确切说是:比较不失败),据说是因为 Google 翻译是一种基于统计的机器翻译技术(维基百科)。『具体而言,采用的是基于Franz-Josef Och 的……获奖研究成果。……若想要开发一个可用于翻译一对全新语言对的统计机器翻译系统,必须做好如下的数据基础搜集……:一个拥有百万单字数量级别的双语文本语料库(或者其平行库集合),以及属于这两种语言的单语语料库,各自得拥有十亿以上的单字。然后,用于翻译这一对语言的机器翻译结果就会通过这些数据产生的统计模型而得出。』
我时常想,Google 如此巨大的语料库是哪儿来的呢?单语语料库不稀奇,Google 的爬虫每天爬回去的页面都可以用于单语语料库的堆积整理。而双语语料库的内容『Google采用了联合国文档作为语料库内容来源。』(还是维基百科)
即使取得了如此成绩,Google Translate 还是一个业余工具。如果有原文,还是读原文好一些,不必担心错漏。
另一个与『机器翻译』相关的概念是『机器辅助翻译』(machine-aided translation)。我若干年前在 blog 上讲过一款影响巨大的 MAT 软件,叫做 Trados。可惜那个帖子年代久远,插图都没有了。不过不要紧,重要的是先说一下几个概念:MAT 软件的常见思路是 TM,translation memory,也就是翻译记忆库。每一篇文章在翻译时首先会分成若干个 segment,通常是单个的句子。在软件中,译者逐句逐句地翻译,每翻译完一句话(一个 segment),都会自动存放在 TM 里。在准备翻译下一句话的时候,软件会自动在 TM 中搜索是否有相似的句子。如果 TM 中有完全相同的一句话( 100% 匹配)就会自动显示出来,如果有类似的句子,也会显示出来并用颜色标出差异在哪里。
所谓的 Google 辅助翻译,也即是如此。Google Translator Toolkit(谷歌译者工具包)就是这样一个工具。写到这里我不得不说我火星了,居然最近才听说有这么一东西。
打开后可以上传要翻译的文件。支持的文件格式不多,并且明确提醒体积不要太大、处理过程中源文件格式可能丢失。在几个 blog 上读到有人觉得这是一点缺憾,其实在正常不过了,一个完全基于浏览器的 Web 应用,还能期待什么?Web 应用的长处本来就不是功能强大,而是简单易协作。GTT 似乎就是出于这种目的,默认情况下它会把你翻译的 TM 与其他所有用户共享;除非你自己创建 TM,明确指定想与谁共享(或仅自己使用)。我觉得 Google 的 whole point 就在于共享。
上图是 Google Translator Toolkit 的工作界面,刚才上传的文件在这里打开后会原文/译文左右排开,并先将所有的文本用 Google Translate 翻译成犹如鸡肋的译文。(回想起早以前译言的翻译界面上也有用 Google 机器翻译的选项,我有一次还跟拙尘说不如去了吧,实乃鸡肋。)Google 此时此处未免敝帚自珍了。系统会自动打开翻译 segment 的小浮动编辑窗,同时还会在下面显示出 TM 中找出的相似句子(包括自己独有的 TM,别人指明和你分享的 TM 以及所有人共享的 TM)。GTT 中还能让你上传自己的 TM 文件(兼容性很广的 tmx 格式),以及词汇表文件。
如果熟悉 Google 文档,你对 GTT 也应该能很快上手。如果还想了解更详细的手把手的指导,看这里:Google Translator Toolkit 试用手记,来自『北大译坛』;以及谷奥的一篇文章,有视频的。
翻译中国网站上一个兄台也写了一篇手把手式的文章,在文中抱怨『对于专业的译者,GTT 功能太弱了!』,比如可上传的 TM 文件太小、词汇表管理功能太弱,甚至还抱怨翻译记忆的『保密问题』。对此的看法是,首先对于一款基于 Web 的产品,你还想期待什么?即使此产品有够牛逼,你的网络连接够快吗?再回想 Google Docs,或任何其他在线文档处理程序,强大的功能意味着沉重的页面和漫长的装载时间,你一定没考虑过 Google Docs 里应当具备 VBA 功能吧?类比之,GTT 的功能不需要强大(即使不是『不能够』强大)。所以也不必想把自己攒了几年的 TM 文件全都导出传到 Google 上,或者把自己攒的词汇表上传上去在线维护,你要真以为 GTT 的目的在于搞死 Trados,搞死 Logoport —— 那认真你就输了。
那 Google 为什么要染指机器辅助翻译市场呢?去年 8 月份的一篇 blog 和我的想法很类似:
Why would Google take an interest in supporting human translation activities? One big reason: It needs human support in order to build up its translation memory, so that Google Translate can evolve … to a reputable and reliable language conversion machine. … [T]here are some large sources of free translation memory out there already — such as the enormous database offered by the European Parliament. But, to truly enable mass quantities of information to be shared around the globe, Google needs richer, vaster sources of TM than what’s currently in the public domain.(Source: Global Watchtower)
在 Google Translator Toolkit 中,不管你是不是选择了『与所有人分享』,所有的 TM 记录都在 Google 的服务器上。而且,利用用户提供的数据『进行审核、研究和分析以维护、保护和改进我们的服务;……开发新服务』已经在 Google 的隐私政策中定义为合理使用。如果十年后,Google 的译文越来越漂亮,整个网络(乃至全体人类)都会大不相同。于是我一面感慨 Google 改变世界的力量十分巨大,又一面想 Google 会不会成为一个新的独裁政权呢?
[...] 1972 年的世界,点过去就好。还有我上一篇 blog 说到的 Google 机器翻译和 Google [...]








但具有道德约束力。而且你会发现它在一个非集权社会的影响力比你我想象的要大。