法语词频
我从一个叫做 Lexique.org 的网站上找到了一个法语的词频列表。
但是表格太大(13 万条),一个 Excel 表格的一个 Sheet 盛不下(65536 行),于是把最不常用的一些词语去掉以后,剩下了六万多个词放在了一个 Excel 表格里。我只是把词频表掐去了尾巴,被我掐去的词大概你一辈子都不认识也无所谓。
这个词频表,我必须声明两点:
- 我不知道他是怎么算的,我也不知道后面的 Fréquence 一列的数字是以什么为基数算的。不过总之是数字越大出现越多。
- 它把一个单词的不同形式都裂成了不同的条目,比如 arriver, arrivé, arriée 是分别算的,而且它把 s’ d’ qu’ 也算作『单词』,所以请注意。
先简单汇报一下法语里最常用的词是:de, la, et, le, à, les, d’, des, il, un, en, que, une, est, dans, du, qui, pas, qu’, je, pour, ne, se, au, elle, par, ce, s’, plus, on。
至于一个词频表有什么用呢?比如,可以在你背单词的时候参考。对电脑语言分析可能会有用,但是对自然人有什么用处,除了背单词我还真一时想不起来。
下载 .zip 文件。
Google 的离开标志着中国又将被抛弃一个时代
假如 Google 在这个国家真的不存在了,这个国家人民访问信息的能力又会落后一大步。
任何人做出任何一个决策时,信息都是具有很大意义的。信息传播交流技术的每一个进步,都会促动整个人类社会形态的剧变。活字印刷如此,电报的发明如此,广播和电视的发明也是如此,电脑和网络更是如此。
电脑的发明,尤其是网络的出现赋予了人们创造信息、传播信息、交换信息的巨大能力。如果把网络比作一个人类知识和思想的巨大图书馆,搜索引擎就像是一个一目了然的索引。Google 搜索以及 Google 提供的其他服务,能够把网络上的信息整合起来。你需要的时候只要搜索就能找到,而且搜索的结果按照重要性排序,而不是按谁出的钱多,也不是按照孩子他姥爷的指令排序。其他搜索尚未做到像 Google 这么好。
Google 深知网络能给信息的可及性带来巨大的提升。所以 Google 旗下有美国专利搜索,你知道林语堂还发明过中文打字机么?Google 上能找到林语堂的专利文档。所以 Google 一直在对图书馆的书进行数字化。比如,我需要查找『腹膜透析』的资料,搜索一个术语是什么意思,找来找去终于,在 Google Books 里找到了。从那里我能打开那本书的相应页面,看到那个术语的定义。Google 还会把老杂志的全部内容放在网上,你想了解 1972 年的世界,点过去就好。还有我上一篇 blog 说到的 Google 机器翻译和 Google 译者工具包,如果有人制造出具有多语种自动翻译能力的东西,大概会是 Google。请设想一下,如果没有 Google Books,即使北京的某个图书馆有这本全英文的教科书,我也不可能找到它在第几章第几页。Google 还有学术搜索,假如没了 Google,恐怕懒惰的研究生想抄袭一篇毕业论文都不太容易了。
Google 的产品,以及网络上其他创新,无不促进这信息的自由流动,抑或让人们更好地工作、生活、交流。对于善用这些创新技术的人们,无疑获得了更大的自由和更宽广的视野。利用这些创新技术和网络带来的丰富信息,个人可以更好更快地学习,更全面地考虑问题,做出更恰当的决策。通过视野的拓展,他还能更有效率地创新。这些由信息自由所赋予的个人自由发展,个人自由创新的视野、机会和能力才是一个国家最有价值的财富。闭门造出的车是一定会散架的,小圈子近亲婚配是一定会胎儿畸形的,井底之蛙是一定不会知道大海何其辽阔的。
其实本来我对 Google “Do no evil.” 的信条是十分将信将疑的,但比较一下我朝秉承敌我斗争的哲学,对 Google 开展的无间道战略,Google 真是纯良无比啊。何况,能造出好产品,在为他人服务的时候自己也挣些钱,岂不是天经地义?Google 的被迫离开标志着中国又将被抛回了一个自我封闭的时代。或者说,Google 的离开表明中国从来就未曾脱离以阶级斗争为纲、帝国主义亡我之心不死的时代。
Google 翻译:统治语言
所谓的机器翻译/电脑翻译,一直有着许多恶名。比如一个经典的例句叫做『Double click the mouse it will run.』被机器翻译过来变成了『两次咔嗒老鼠将跑掉』。我最早曾试验过金山快译,其译文绝大多数是 pure crap。这个诡异译文似乎就是出自金山快译,只可惜年代久远我已经不能完全模仿原误译的丑态,而且也无从考证了。
所以 Google Translate 功能刚一推出的时候,所有用户都惊呼:翻译的太好了!当然电脑始终是电脑,讲出的人话也始终不伦不类,说它好只是因为 Google Translate 的竞争对手比它更烂。于是 Google Translate 给出如下这种质量的译文,已经实属不易了。
对于大多数非专业领域的通用文章,再假如你只是想粗略了解一下什么意思,Google Translate 也无疑帮助许多英文(或其他外文)不好的人跨越了互联网上唯一的障碍(当然,某墙除外)。但是站在一个靠翻译吃饭的人的角度上,了解到机器翻译取得的如此长足的进步,心眼儿还是一紧(差点打成菊花一紧 -_-;;;),心想,别哥们儿哪天没饭吃了。虽然电脑的译文不通顺,有时候还会犯很多傻逼错误,但毕竟人不要钱,而且凑合凑合还能看懂。
一直以来机器翻译的思路是用模拟语法的算法,外加词汇对应。比如 Google Translate 以前的翻译程序有时就会把 In the house, on the table 之类的短语翻译成『在……里这个房子』『在……上这个桌子』,失败的语法、语序算法和失败的词汇表就这样跃然纸上,让你不禁拍案叫绝。
Google Translate 之所以取得成功(确切说是:比较不失败),据说是因为 Google 翻译是一种基于统计的机器翻译技术(维基百科)。『具体而言,采用的是基于Franz-Josef Och 的……获奖研究成果。……若想要开发一个可用于翻译一对全新语言对的统计机器翻译系统,必须做好如下的数据基础搜集……:一个拥有百万单字数量级别的双语文本语料库(或者其平行库集合),以及属于这两种语言的单语语料库,各自得拥有十亿以上的单字。然后,用于翻译这一对语言的机器翻译结果就会通过这些数据产生的统计模型而得出。』
我时常想,Google 如此巨大的语料库是哪儿来的呢?单语语料库不稀奇,Google 的爬虫每天爬回去的页面都可以用于单语语料库的堆积整理。而双语语料库的内容『Google采用了联合国文档作为语料库内容来源。』(还是维基百科)
即使取得了如此成绩,Google Translate 还是一个业余工具。如果有原文,还是读原文好一些,不必担心错漏。
另一个与『机器翻译』相关的概念是『机器辅助翻译』(machine-aided translation)。我若干年前在 blog 上讲过一款影响巨大的 MAT 软件,叫做 Trados。可惜那个帖子年代久远,插图都没有了。不过不要紧,重要的是先说一下几个概念:MAT 软件的常见思路是 TM,translation memory,也就是翻译记忆库。每一篇文章在翻译时首先会分成若干个 segment,通常是单个的句子。在软件中,译者逐句逐句地翻译,每翻译完一句话(一个 segment),都会自动存放在 TM 里。在准备翻译下一句话的时候,软件会自动在 TM 中搜索是否有相似的句子。如果 TM 中有完全相同的一句话( 100% 匹配)就会自动显示出来,如果有类似的句子,也会显示出来并用颜色标出差异在哪里。
所谓的 Google 辅助翻译,也即是如此。Google Translator Toolkit(谷歌译者工具包)就是这样一个工具。写到这里我不得不说我火星了,居然最近才听说有这么一东西。
打开后可以上传要翻译的文件。支持的文件格式不多,并且明确提醒体积不要太大、处理过程中源文件格式可能丢失。在几个 blog 上读到有人觉得这是一点缺憾,其实在正常不过了,一个完全基于浏览器的 Web 应用,还能期待什么?Web 应用的长处本来就不是功能强大,而是简单易协作。GTT 似乎就是出于这种目的,默认情况下它会把你翻译的 TM 与其他所有用户共享;除非你自己创建 TM,明确指定想与谁共享(或仅自己使用)。我觉得 Google 的 whole point 就在于共享。
上图是 Google Translator Toolkit 的工作界面,刚才上传的文件在这里打开后会原文/译文左右排开,并先将所有的文本用 Google Translate 翻译成犹如鸡肋的译文。(回想起早以前译言的翻译界面上也有用 Google 机器翻译的选项,我有一次还跟拙尘说不如去了吧,实乃鸡肋。)Google 此时此处未免敝帚自珍了。系统会自动打开翻译 segment 的小浮动编辑窗,同时还会在下面显示出 TM 中找出的相似句子(包括自己独有的 TM,别人指明和你分享的 TM 以及所有人共享的 TM)。GTT 中还能让你上传自己的 TM 文件(兼容性很广的 tmx 格式),以及词汇表文件。
如果熟悉 Google 文档,你对 GTT 也应该能很快上手。如果还想了解更详细的手把手的指导,看这里:Google Translator Toolkit 试用手记,来自『北大译坛』;以及谷奥的一篇文章,有视频的。
翻译中国网站上一个兄台也写了一篇手把手式的文章,在文中抱怨『对于专业的译者,GTT 功能太弱了!』,比如可上传的 TM 文件太小、词汇表管理功能太弱,甚至还抱怨翻译记忆的『保密问题』。对此的看法是,首先对于一款基于 Web 的产品,你还想期待什么?即使此产品有够牛逼,你的网络连接够快吗?再回想 Google Docs,或任何其他在线文档处理程序,强大的功能意味着沉重的页面和漫长的装载时间,你一定没考虑过 Google Docs 里应当具备 VBA 功能吧?类比之,GTT 的功能不需要强大(即使不是『不能够』强大)。所以也不必想把自己攒了几年的 TM 文件全都导出传到 Google 上,或者把自己攒的词汇表上传上去在线维护,你要真以为 GTT 的目的在于搞死 Trados,搞死 Logoport —— 那认真你就输了。
那 Google 为什么要染指机器辅助翻译市场呢?去年 8 月份的一篇 blog 和我的想法很类似:
Why would Google take an interest in supporting human translation activities? One big reason: It needs human support in order to build up its translation memory, so that Google Translate can evolve … to a reputable and reliable language conversion machine. … [T]here are some large sources of free translation memory out there already — such as the enormous database offered by the European Parliament. But, to truly enable mass quantities of information to be shared around the globe, Google needs richer, vaster sources of TM than what’s currently in the public domain.(Source: Global Watchtower)
在 Google Translator Toolkit 中,不管你是不是选择了『与所有人分享』,所有的 TM 记录都在 Google 的服务器上。而且,利用用户提供的数据『进行审核、研究和分析以维护、保护和改进我们的服务;……开发新服务』已经在 Google 的隐私政策中定义为合理使用。如果十年后,Google 的译文越来越漂亮,整个网络(乃至全体人类)都会大不相同。于是我一面感慨 Google 改变世界的力量十分巨大,又一面想 Google 会不会成为一个新的独裁政权呢?








