Google 翻译:统治语言
所谓的机器翻译/电脑翻译,一直有着许多恶名。比如一个经典的例句叫做『Double click the mouse it will run.』被机器翻译过来变成了『两次咔嗒老鼠将跑掉』。我最早曾试验过金山快译,其译文绝大多数是 pure crap。这个诡异译文似乎就是出自金山快译,只可惜年代久远我已经不能完全模仿原误译的丑态,而且也无从考证了。
所以 Google Translate 功能刚一推出的时候,所有用户都惊呼:翻译的太好了!当然电脑始终是电脑,讲出的人话也始终不伦不类,说它好只是因为 Google Translate 的竞争对手比它更烂。于是 Google Translate 给出如下这种质量的译文,已经实属不易了。
对于大多数非专业领域的通用文章,再假如你只是想粗略了解一下什么意思,Google Translate 也无疑帮助许多英文(或其他外文)不好的人跨越了互联网上唯一的障碍(当然,某墙除外)。但是站在一个靠翻译吃饭的人的角度上,了解到机器翻译取得的如此长足的进步,心眼儿还是一紧(差点打成菊花一紧 -_-;;;),心想,别哥们儿哪天没饭吃了。虽然电脑的译文不通顺,有时候还会犯很多傻逼错误,但毕竟人不要钱,而且凑合凑合还能看懂。
一直以来机器翻译的思路是用模拟语法的算法,外加词汇对应。比如 Google Translate 以前的翻译程序有时就会把 In the house, on the table 之类的短语翻译成『在……里这个房子』『在……上这个桌子』,失败的语法、语序算法和失败的词汇表就这样跃然纸上,让你不禁拍案叫绝。
Google Translate 之所以取得成功(确切说是:比较不失败),据说是因为 Google 翻译是一种基于统计的机器翻译技术(维基百科)。『具体而言,采用的是基于Franz-Josef Och 的……获奖研究成果。……若想要开发一个可用于翻译一对全新语言对的统计机器翻译系统,必须做好如下的数据基础搜集……:一个拥有百万单字数量级别的双语文本语料库(或者其平行库集合),以及属于这两种语言的单语语料库,各自得拥有十亿以上的单字。然后,用于翻译这一对语言的机器翻译结果就会通过这些数据产生的统计模型而得出。』
我时常想,Google 如此巨大的语料库是哪儿来的呢?单语语料库不稀奇,Google 的爬虫每天爬回去的页面都可以用于单语语料库的堆积整理。而双语语料库的内容『Google采用了联合国文档作为语料库内容来源。』(还是维基百科)
即使取得了如此成绩,Google Translate 还是一个业余工具。如果有原文,还是读原文好一些,不必担心错漏。
另一个与『机器翻译』相关的概念是『机器辅助翻译』(machine-aided translation)。我若干年前在 blog 上讲过一款影响巨大的 MAT 软件,叫做 Trados。可惜那个帖子年代久远,插图都没有了。不过不要紧,重要的是先说一下几个概念:MAT 软件的常见思路是 TM,translation memory,也就是翻译记忆库。每一篇文章在翻译时首先会分成若干个 segment,通常是单个的句子。在软件中,译者逐句逐句地翻译,每翻译完一句话(一个 segment),都会自动存放在 TM 里。在准备翻译下一句话的时候,软件会自动在 TM 中搜索是否有相似的句子。如果 TM 中有完全相同的一句话( 100% 匹配)就会自动显示出来,如果有类似的句子,也会显示出来并用颜色标出差异在哪里。
所谓的 Google 辅助翻译,也即是如此。Google Translator Toolkit(谷歌译者工具包)就是这样一个工具。写到这里我不得不说我火星了,居然最近才听说有这么一东西。
打开后可以上传要翻译的文件。支持的文件格式不多,并且明确提醒体积不要太大、处理过程中源文件格式可能丢失。在几个 blog 上读到有人觉得这是一点缺憾,其实在正常不过了,一个完全基于浏览器的 Web 应用,还能期待什么?Web 应用的长处本来就不是功能强大,而是简单易协作。GTT 似乎就是出于这种目的,默认情况下它会把你翻译的 TM 与其他所有用户共享;除非你自己创建 TM,明确指定想与谁共享(或仅自己使用)。我觉得 Google 的 whole point 就在于共享。
上图是 Google Translator Toolkit 的工作界面,刚才上传的文件在这里打开后会原文/译文左右排开,并先将所有的文本用 Google Translate 翻译成犹如鸡肋的译文。(回想起早以前译言的翻译界面上也有用 Google 机器翻译的选项,我有一次还跟拙尘说不如去了吧,实乃鸡肋。)Google 此时此处未免敝帚自珍了。系统会自动打开翻译 segment 的小浮动编辑窗,同时还会在下面显示出 TM 中找出的相似句子(包括自己独有的 TM,别人指明和你分享的 TM 以及所有人共享的 TM)。GTT 中还能让你上传自己的 TM 文件(兼容性很广的 tmx 格式),以及词汇表文件。
如果熟悉 Google 文档,你对 GTT 也应该能很快上手。如果还想了解更详细的手把手的指导,看这里:Google Translator Toolkit 试用手记,来自『北大译坛』;以及谷奥的一篇文章,有视频的。
翻译中国网站上一个兄台也写了一篇手把手式的文章,在文中抱怨『对于专业的译者,GTT 功能太弱了!』,比如可上传的 TM 文件太小、词汇表管理功能太弱,甚至还抱怨翻译记忆的『保密问题』。对此的看法是,首先对于一款基于 Web 的产品,你还想期待什么?即使此产品有够牛逼,你的网络连接够快吗?再回想 Google Docs,或任何其他在线文档处理程序,强大的功能意味着沉重的页面和漫长的装载时间,你一定没考虑过 Google Docs 里应当具备 VBA 功能吧?类比之,GTT 的功能不需要强大(即使不是『不能够』强大)。所以也不必想把自己攒了几年的 TM 文件全都导出传到 Google 上,或者把自己攒的词汇表上传上去在线维护,你要真以为 GTT 的目的在于搞死 Trados,搞死 Logoport —— 那认真你就输了。
那 Google 为什么要染指机器辅助翻译市场呢?去年 8 月份的一篇 blog 和我的想法很类似:
Why would Google take an interest in supporting human translation activities? One big reason: It needs human support in order to build up its translation memory, so that Google Translate can evolve … to a reputable and reliable language conversion machine. … [T]here are some large sources of free translation memory out there already — such as the enormous database offered by the European Parliament. But, to truly enable mass quantities of information to be shared around the globe, Google needs richer, vaster sources of TM than what’s currently in the public domain.(Source: Global Watchtower)
在 Google Translator Toolkit 中,不管你是不是选择了『与所有人分享』,所有的 TM 记录都在 Google 的服务器上。而且,利用用户提供的数据『进行审核、研究和分析以维护、保护和改进我们的服务;……开发新服务』已经在 Google 的隐私政策中定义为合理使用。如果十年后,Google 的译文越来越漂亮,整个网络(乃至全体人类)都会大不相同。于是我一面感慨 Google 改变世界的力量十分巨大,又一面想 Google 会不会成为一个新的独裁政权呢?
我在听的 Podcast
- 反波:Deutsche Welle Global Best Podcast 2005 winner. All radios go to hell! 德国之声2005年全球最佳播客得主。让收音机下地狱去吧!(www.antiwave.net/,平客、飞猪,您倒是更新啊!)
- Big Ideas:是加拿大的一个电视节目,有很多有意思的讲座,关于公共生活、社会、政治等。(www.tvo.org/TVOsites/WebObjects/TvoMicrosite.woa?bigideas)
- In Our Time:BBC 播出的,关于思想史的一个谈话节目。(www.bbc.co.uk/radio4/history/inourtime/,似乎 podcast 很长时间没有更新了,但仍然可以在网站上听)
- LSE 讲座:伦敦政治经济学院的公共演讲,经常会有经济学和政治学神人的演讲,有些还有 PDF 的笔记或发言稿下载。(www2.lse.ac.uk/publicEvents/Home.aspx)
- More or Less: Behind the Stats:BBC 节目,主播是《金融时报》专栏作家、经济学家 Tim Harford。有句老话讲:撒谎有两种方式,一种是撒谎,另一种是统计。这个节目就是揭穿那些误导人的统计数据的。(www.bbc.co.uk/moreorless)
- New Yorker: Comment:《纽约客》的评论栏目,挺有意思的。(www.newyorker.com/online/podcasts/comment)
- TED Talks (Video)
- 德国之声中文广播:篇幅很长的新闻广播,有时候没耐心听完哈。(官方的种子地址是 http://rss.dw-world.de/xml/podcast_radio_china,但是这个地址要翻墙才能打开,于是我在 FeedBurner 上烧了一个新种子:feeds.feedburner.com/dw-chinese-podcast,不用翻墙就能下载了。)
- 锵锵三人行:凤凰卫视的扯淡节目,感觉越来越土、越来越亲政府了。(feeds2.feedburner.com/qiangqiang)
:TED 上有很多有意思、有想法的人用十分钟二十分钟时间讲了很多有意思、有想法的事情。Insightful。(www.ted.com/talks)
附赠一个 OPML,包括了上述地址。点这里下载,然后导入你的阅读器就好了。
RT: RT: RT: RT: RT: 囧,谁生日来着?
今天(2009年9月6日)是 Twitter 用户 @gowers 的生日。鉴于 Twitter 母站一直在墙外,所以本帖里 @ 的链接都走向『推特中文圈』。
研究 Web 2.0 的、新闻传播乃至政治学意义上的『公共空间』的同学们,对 Twitter 上信息传播的方式想必已经翻来覆去地谈论了很多。今天我观察到的囧事,嗯,说明了信息传播的步骤越多,产生损失的概率越大。(哈哈哈!)
首先,朋友 @onlyswan (80后早婚艳女)在推特上推道(Retweet道,而且是已经传了N手的锐推了):
寿比南山 RT @sevewn: 青春常驻 RT @alley0101: 天天开心RT @qingyinzi: 生日快乐!RT @gowers: 上来冒个泡,今天是我的生日,哈哈。
然后好事的我锐推了一下,加上了一句『年年有今日,岁岁有今朝!』虽然我不认识 @gowers,不认识 @qingyinzi,不认识 @alley0101,不认识 @sevewn,但是我认识 @onlyswan,她朋友过生日,小祝愿一下也蛮好啊,况且 what goes around, comes around 呀!
于是我这一推又被接着 RT。大家纷纷祝愿道『生日快乐』『寿比南山』之类。然而不幸的是,由于长度所限,到后来原推已经不见了。于是 @scavin 大神(小众软件的幕后主脑!)困惑地问道,谁过生日啊?
呃,谁过生日? RT @Fotuo: RT @Free2E: 生日快乐rTwT: @childream 生辰快乐~rTwT: @400kg 生日快乐 RT @cranewang: 年年有今日,岁岁有今朝! RT @onlyswan: 寿比南山 RT @sevewn: 青春 …
然后 @yulei666 回答道:『不知道,发现生日就rt一个~』,他接着锐推,虽然他已经不知道是谁的生日了。
RT 不知道,发现生日就rt一个~生日快乐 @scavin 呃,谁过生日? RT @Fotuo: RT @Free2E: 生日快乐rTwT: @childream 生辰快乐~rTwT: @400kg 生日快乐 RT @cranewang: 年年有今日,岁岁有今朝! RT …
如果跟着锐推的人一个个跟回去,点过若干链接后的确能够知道最初的推是从哪儿来的。但是,不是每个人都有那么大的好奇心和探索精神的。比如:『囧……谁生日……』『太长了看不见』(@trc_t)
太长了看不见 RT @yegle 囧……谁生日……RT @scavin: 呃,谁过生日? RT @Fotuo: RT @Free2E: 生日快乐rTwT: @childream 生辰快乐~rTwT: @400kg 生日快乐 RT @cranewang: 年年有今日,岁岁有 …
总之,生日快乐!(哈哈哈哈!)
结论:
1)锐推的越多,你丫越不知道来源是谁,原本此推的目的是怎么回事;
2)你丫永远不知道自己的一推会被传播到谁那里,那人会对此有什么反应。








