Google 翻译:统治语言

所谓的机器翻译/电脑翻译,一直有着许多恶名。比如一个经典的例句叫做『Double click the mouse it will run.』被机器翻译过来变成了『两次咔嗒老鼠将跑掉』。我最早曾试验过金山快译,其译文绝大多数是 pure crap。这个诡异译文似乎就是出自金山快译,只可惜年代久远我已经不能完全模仿原误译的丑态,而且也无从考证了。

所以 Google Translate 功能刚一推出的时候,所有用户都惊呼:翻译的太好了!当然电脑始终是电脑,讲出的人话也始终不伦不类,说它好只是因为 Google Translate 的竞争对手比它更烂。于是 Google Translate 给出如下这种质量的译文,已经实属不易了。

这种质量的译文,其实已经不错了。

这种质量的译文,其实已经不错了。

对于大多数非专业领域的通用文章,再假如你只是想粗略了解一下什么意思,Google Translate 也无疑帮助许多英文(或其他外文)不好的人跨越了互联网上唯一的障碍(当然,某墙除外)。但是站在一个靠翻译吃饭的人的角度上,了解到机器翻译取得的如此长足的进步,心眼儿还是一紧(差点打成菊花一紧 -_-;;;),心想,别哥们儿哪天没饭吃了。虽然电脑的译文不通顺,有时候还会犯很多傻逼错误,但毕竟人不要钱,而且凑合凑合还能看懂。

一直以来机器翻译的思路是用模拟语法的算法,外加词汇对应。比如 Google Translate 以前的翻译程序有时就会把 In the house, on the table 之类的短语翻译成『在……里这个房子』『在……上这个桌子』,失败的语法、语序算法和失败的词汇表就这样跃然纸上,让你不禁拍案叫绝。

Google Translate 之所以取得成功(确切说是:比较不失败),据说是因为 Google 翻译是一种基于统计的机器翻译技术(维基百科)。『具体而言,采用的是基于Franz-Josef Och 的……获奖研究成果。……若想要开发一个可用于翻译一对全新语言对的统计机器翻译系统,必须做好如下的数据基础搜集……:一个拥有百万单字数量级别的双语文本语料库(或者其平行库集合),以及属于这两种语言的单语语料库,各自得拥有十亿以上的单字。然后,用于翻译这一对语言的机器翻译结果就会通过这些数据产生的统计模型而得出。』

我时常想,Google 如此巨大的语料库是哪儿来的呢?单语语料库不稀奇,Google 的爬虫每天爬回去的页面都可以用于单语语料库的堆积整理。而双语语料库的内容『Google采用了联合国文档作为语料库内容来源。』(还是维基百科

即使取得了如此成绩,Google Translate 还是一个业余工具。如果有原文,还是读原文好一些,不必担心错漏。

另一个与『机器翻译』相关的概念是『机器辅助翻译』(machine-aided translation)。我若干年前在 blog 上讲过一款影响巨大的 MAT 软件,叫做 Trados。可惜那个帖子年代久远,插图都没有了。不过不要紧,重要的是先说一下几个概念:MAT 软件的常见思路是 TM,translation memory,也就是翻译记忆库。每一篇文章在翻译时首先会分成若干个 segment,通常是单个的句子。在软件中,译者逐句逐句地翻译,每翻译完一句话(一个 segment),都会自动存放在 TM 里。在准备翻译下一句话的时候,软件会自动在 TM 中搜索是否有相似的句子。如果 TM 中有完全相同的一句话( 100% 匹配)就会自动显示出来,如果有类似的句子,也会显示出来并用颜色标出差异在哪里。

所谓的 Google 辅助翻译,也即是如此。Google Translator Toolkit(谷歌译者工具包)就是这样一个工具。写到这里我不得不说我火星了,居然最近才听说有这么一东西。

上传要翻译的文件,并设置 TM

上传要翻译的文件,并设置 TM

打开后可以上传要翻译的文件。支持的文件格式不多,并且明确提醒体积不要太大、处理过程中源文件格式可能丢失。在几个 blog 上读到有人觉得这是一点缺憾,其实在正常不过了,一个完全基于浏览器的 Web 应用,还能期待什么?Web 应用的长处本来就不是功能强大,而是简单易协作。GTT 似乎就是出于这种目的,默认情况下它会把你翻译的 TM 与其他所有用户共享;除非你自己创建 TM,明确指定想与谁共享(或仅自己使用)。我觉得 Google 的 whole point 就在于共享

Google Translator Toolkit 工作界面

Google Translator Toolkit 工作界面

上图是 Google Translator Toolkit 的工作界面,刚才上传的文件在这里打开后会原文/译文左右排开,并先将所有的文本用 Google Translate 翻译成犹如鸡肋的译文。(回想起早以前译言的翻译界面上也有用 Google 机器翻译的选项,我有一次还跟拙尘说不如去了吧,实乃鸡肋。)Google 此时此处未免敝帚自珍了。系统会自动打开翻译 segment 的小浮动编辑窗,同时还会在下面显示出 TM 中找出的相似句子(包括自己独有的 TM,别人指明和你分享的 TM 以及所有人共享的 TM)。GTT 中还能让你上传自己的 TM 文件(兼容性很广的 tmx 格式),以及词汇表文件。

如果熟悉 Google 文档,你对 GTT 也应该能很快上手。如果还想了解更详细的手把手的指导,看这里:Google Translator Toolkit 试用手记,来自『北大译坛』;以及谷奥的一篇文章,有视频的。

翻译中国网站上一个兄台也写了一篇手把手式的文章,在文中抱怨『对于专业的译者,GTT 功能太弱了!』,比如可上传的 TM 文件太小、词汇表管理功能太弱,甚至还抱怨翻译记忆的『保密问题』。对此的看法是,首先对于一款基于 Web 的产品,你还想期待什么?即使此产品有够牛逼,你的网络连接够快吗?再回想 Google Docs,或任何其他在线文档处理程序,强大的功能意味着沉重的页面和漫长的装载时间,你一定没考虑过 Google Docs 里应当具备 VBA 功能吧?类比之,GTT 的功能不需要强大(即使不是『不能够』强大)。所以也不必想把自己攒了几年的 TM 文件全都导出传到 Google 上,或者把自己攒的词汇表上传上去在线维护,你要真以为 GTT 的目的在于搞死 Trados,搞死 Logoport —— 那认真你就输了。

那 Google 为什么要染指机器辅助翻译市场呢?去年 8 月份的一篇 blog 和我的想法很类似:

Why would Google take an interest in supporting human translation activities? One big reason: It needs human support in order to build up its translation memory, so that Google Translate can evolve … to a reputable and reliable language conversion machine. … [T]here are some large sources of free translation memory out there already — such as the enormous database offered by the European Parliament. But, to truly enable mass quantities of information to be shared around the globe, Google needs richer, vaster sources of TM than what’s currently in the public domain.(Source: Global Watchtower)

在 Google Translator Toolkit 中,不管你是不是选择了『与所有人分享』,所有的 TM 记录都在 Google 的服务器上。而且,利用用户提供的数据『进行审核、研究和分析以维护、保护和改进我们的服务;……开发新服务』已经在 Google 的隐私政策中定义为合理使用。如果十年后,Google 的译文越来越漂亮,整个网络(乃至全体人类)都会大不相同。于是我一面感慨 Google 改变世界的力量十分巨大,又一面想 Google 会不会成为一个新的独裁政权呢?

Opera Unite: 技术革命还是肥妇开唱?

原文Is Opera Unite a revolution, or is it just the fat lady singing?,英国《卫报》
原网址http://www.guardian.co.uk/technology/blog/2009/jun/17/opera-unite
原作者:Bobbie Johnson
(另请参见译言

Opera singer

声音很大:Opera Unite提供的服务号称可以“颠覆传统网络结构”。

Opera的名字第一次登上浏览器的舞台已经有13年了,但是虽然这家挪威软件公司的确有大批死忠的粉丝,但它从来没有对竞争对手产生过什么实质的威胁。

过去该公司过去为了改变市场格局做出了种种努力,而且其许多创新也纷纷被其他业者效仿。然而在外人看来,Opera 之所以成名可能只是因为它在2007年一纸诉状迫使微软在欧洲放弃在 Windows 7 中捆绑 Internet Explorer

然而这个星期二(6月16日),该公司发布了新产品,试图借此在浏览器的竞赛中取得优势。这个称为 Unite 的新产品据说能够“颠覆传统网络结构(reinvents the web)”。

有了Opera Unite,每一台电脑都可以既成为客户端也成为服务器,从此电脑之间可以直接通过网络进行点对点互动和信息共享,再也不需要通过第三方服务器中转。

Opera Unite使得传输数据就像浏览网络般轻松简单。对于消费者而言,使用Opera Unite技术可保证用户对数据资料拥有更强的控制权,并可轻松实现与任何安装有现代网络浏览器的设备联网共享信息。

这件事在网上以及我常读的一些邮件列表里都引发了很多讨论 —— 不过虽然的确挺有意思的,但我还是很困惑 Opera 这是要做什么。 况且,要是有人号称自己要“颠覆”什么东西而你心里却没有丝毫怀疑,恐怕你的心智有些问题。

Opera Unite 到底是什么? 会不会盛名之下,其实难副?

实质上它能让你通过浏览器在自己的电脑上与他人分享信息。简单地设置一下,你就可以通过浏览器展示自己电脑上的任何信息了: 想要和朋友分享视频? 点点鼠标就可以。想在自己网站上贴图? 链接到自己电脑上的图片就行了。

真正的极客(geek)牛人会把这个认为是可以通过 Opera 控制的容易实现的 Web 服务器,用户可以在线分享文档、文件、多媒体,不用再使用别的服务。

Opera 宣称的是这样一来人们就可以抛弃现在正在用的图片、视频分享网站 —— 人人都成了云中的一份子。不用再往 Flickr 上传照片,往 YouTube 上传视频,在 Facebook 上更新自己的生活状态了。从现在开始这些都由你自己做主,既不需要社交网络(social networks),也不需要其他网站。

我觉得这种说法有些问题,最起码,一个普通人不见得会愿意一直开着自己的电脑和浏览器,让别人查看自己的文件吧。

不过,比起开源活动家 Chris Messina 所指出的,这个问题还不算什么。他在曾写 blog 详细地阐述了为什么 Opera Unite 并不能真的像宣传的那样有用。他指出,最关键的一点是它并没有分散网络的服务,因为所有数据仍然需要通过 Opera 的代理服务器传递(更正: 只有路由器不支持 uPnP 时才需要绕行 Opera 的代理);Opera Unite 并不自由,因为它不是开源软件;它也不能让你真正掌握控制权,因为所有的链接都放在 Opera 网站上的子域名上(比如 "files.bobbiejohnson.operaunite.com")。

他同时还指出了合法性的问题 —— 没什么好惊讶的,可以看看星期二这条关于文件共享消息。实际上用户分享的很大一部分数据可能是违法的,Opera 的最终用户许可协议里也有条款试图撇清关系。

“您同意不使用 Opera Unite 上传、传输或以其他方式公开发放淫秽、低俗、仇恨、恐吓及其他违反法律或侵害第三方权益(包括但不限于第三方的知识产权)的文件、图像、代码、资料及其他信息。”

既然所有的数据都经过 Opera 的 Web 代理,如果他们发现你没有权利分享某个文件(或有人写份真假难辨的删除通知),想要删除你的链接根本就是小事一桩。这是不是已经反驳了 Opera 宣传的论点?

这些其实都还不是最现实的问题,因为即使 Unite 看起来的确像是一个有开创性的服务,最关键的问题也不是它多么强大, 而是用户会不会接受。

玩儿技术的常常会觉得自己在领导潮流,自己今天在做的可能别人要用五年时间才能跟上。许多情况下的确如此,当然,即使这种模式今天还能适用,人们将来做同一件事的方式可能也会有巨大的变革。

例如,人们最早开始写blog的时候,一般是在自己的空间上运行自己的软件。然而最后写 blog 是通过 Blogger 和 MySpace 这种集中托管的服务才成为主流的行为。

类似的,智能手机出现多年之后,iPhone 才终于打破了手机功能强大就一定很复杂的印象,开始在市场上广泛流行。在我看来 Unite 这个产品,最多也只能属于这一类:既不能讨好已经在摆弄自己的服务器空间的骨灰级用户,也不能触及根本没想过这种概念的普通用户。

而且,说出来伤感情,Opera 遇到这种局面已经有太多次了。他们首先支持了 BitTorrent,引入了鼠标手势,发布了漂亮的移动版……然而13年后,它占据浏览器市场的份额还是不到 1%,因为那些创新都不能得到普通网络用户的青睐。

这也就是为什么 Opera Unite 并不能颠覆传统网络结构,只是在重复过去十多年来它走的轨迹而已。

译注:英语中有 The opear isn’t over till the fat lady sings. 一语,肥妇人开始唱时,歌剧(Opera)才会完。文中链接均指向英文内容,部分译文取自 Opera 中文网站公布的新闻稿

15 May 2009, 2:27am
翻譯:
by Crane·鹤公子

4 则评论

翻译完工了

终于弄完了。我在书中认为有必要的地方加了一些译注,我想我多少是有些考据癖吧。一直拖了好多天,抱歉(对自己说、对编辑说、对朋友们说)!

因为翻译一本书的心态是略微有些不一样的,总觉得书是一件大事儿,所以不论是翻译还是后来改订都觉得像是自己在脑子里跟自己掰腕子、较劲。这种感觉很奇异的。

其实刚刚写了一篇译后记,但是那种文体写在blog上会看起来很SB的,所以就先不贴了。

嗯,对了,我翻译的书叫作 Agenda for a New Economy。先不详细谈了,睡觉去,醒了那天心情好我再继续喷。

 
  

推荐分享


  • 逐月归档

  • 最近中文文章

  • RSS 最近英文文章

  • 最近评论

  • Google Ads