法语词频
我从一个叫做 Lexique.org 的网站上找到了一个法语的词频列表。
但是表格太大(13 万条),一个 Excel 表格的一个 Sheet 盛不下(65536 行),于是把最不常用的一些词语去掉以后,剩下了六万多个词放在了一个 Excel 表格里。我只是把词频表掐去了尾巴,被我掐去的词大概你一辈子都不认识也无所谓。
这个词频表,我必须声明两点:
- 我不知道他是怎么算的,我也不知道后面的 Fréquence 一列的数字是以什么为基数算的。不过总之是数字越大出现越多。
- 它把一个单词的不同形式都裂成了不同的条目,比如 arriver, arrivé, arriée 是分别算的,而且它把 s’ d’ qu’ 也算作『单词』,所以请注意。
先简单汇报一下法语里最常用的词是:de, la, et, le, à, les, d’, des, il, un, en, que, une, est, dans, du, qui, pas, qu’, je, pour, ne, se, au, elle, par, ce, s’, plus, on。
至于一个词频表有什么用呢?比如,可以在你背单词的时候参考。对电脑语言分析可能会有用,但是对自然人有什么用处,除了背单词我还真一时想不起来。
下载 .zip 文件。
Google 的离开标志着中国又将被抛弃一个时代
假如 Google 在这个国家真的不存在了,这个国家人民访问信息的能力又会落后一大步。
任何人做出任何一个决策时,信息都是具有很大意义的。信息传播交流技术的每一个进步,都会促动整个人类社会形态的剧变。活字印刷如此,电报的发明如此,广播和电视的发明也是如此,电脑和网络更是如此。
电脑的发明,尤其是网络的出现赋予了人们创造信息、传播信息、交换信息的巨大能力。如果把网络比作一个人类知识和思想的巨大图书馆,搜索引擎就像是一个一目了然的索引。Google 搜索以及 Google 提供的其他服务,能够把网络上的信息整合起来。你需要的时候只要搜索就能找到,而且搜索的结果按照重要性排序,而不是按谁出的钱多,也不是按照孩子他姥爷的指令排序。其他搜索尚未做到像 Google 这么好。
Google 深知网络能给信息的可及性带来巨大的提升。所以 Google 旗下有美国专利搜索,你知道林语堂还发明过中文打字机么?Google 上能找到林语堂的专利文档。所以 Google 一直在对图书馆的书进行数字化。比如,我需要查找『腹膜透析』的资料,搜索一个术语是什么意思,找来找去终于,在 Google Books 里找到了。从那里我能打开那本书的相应页面,看到那个术语的定义。Google 还会把老杂志的全部内容放在网上,你想了解 1972 年的世界,点过去就好。还有我上一篇 blog 说到的 Google 机器翻译和 Google 译者工具包,如果有人制造出具有多语种自动翻译能力的东西,大概会是 Google。请设想一下,如果没有 Google Books,即使北京的某个图书馆有这本全英文的教科书,我也不可能找到它在第几章第几页。Google 还有学术搜索,假如没了 Google,恐怕懒惰的研究生想抄袭一篇毕业论文都不太容易了。
Google 的产品,以及网络上其他创新,无不促进这信息的自由流动,抑或让人们更好地工作、生活、交流。对于善用这些创新技术的人们,无疑获得了更大的自由和更宽广的视野。利用这些创新技术和网络带来的丰富信息,个人可以更好更快地学习,更全面地考虑问题,做出更恰当的决策。通过视野的拓展,他还能更有效率地创新。这些由信息自由所赋予的个人自由发展,个人自由创新的视野、机会和能力才是一个国家最有价值的财富。闭门造出的车是一定会散架的,小圈子近亲婚配是一定会胎儿畸形的,井底之蛙是一定不会知道大海何其辽阔的。
其实本来我对 Google “Do no evil.” 的信条是十分将信将疑的,但比较一下我朝秉承敌我斗争的哲学,对 Google 开展的无间道战略,Google 真是纯良无比啊。何况,能造出好产品,在为他人服务的时候自己也挣些钱,岂不是天经地义?Google 的被迫离开标志着中国又将被抛回了一个自我封闭的时代。或者说,Google 的离开表明中国从来就未曾脱离以阶级斗争为纲、帝国主义亡我之心不死的时代。




