惊闻我国文学史上著名的“耷拉”一词被列为工信部官方指定花季少年上网专用泄洪软件——绿坝打入到屏蔽词汇行列,这让我想起了几年前在科幻世界上看到的一篇小说《寂静之城》。
我依稀记得这篇小说中的主角接上网络,与他人进行联系时,事先都需要下载一个“安全词汇表”,这个表中列出了当前能够自由在网络上传播的词汇,任何在网络上传播的信息仅能够使用这个表中列出的词汇来撰写;并且这个列表会不停地更新,你不知道什么时候会发生变化,可能当你写完一封email后,发现最新的“安全词汇表”中已经又少了几个可以使用的词汇,这意味着如果你的email中包含了这几个消失的词汇,你不得不想办法用其它词汇来代表它们。打个比方,如果“运动”被禁用了,你可以使用“质点位移”来代替它。总之,你需要在有限的词汇中创造出无穷的含义。
这篇5年前的文章和我们现在的生活是多么惊人的相似啊,从某种程度上来讲,甚至超越了小说中描写的情节。他们至少还有一本安全词汇表,可以知道哪些词还能正常使用,而我们则永远不会知道使用哪些词能够绝对安全。虽然在现阶段,我们的不安全词汇表还不能大过安全词汇表。如harmony现在只能委曲求全的叫做河蟹或水产,撡亇媽摇身变成草坭玛。
得益于一些软件或网站的程序设计漏洞存在,我有幸收集到一些软件的敏感词们。像老版本emule中的wordfilter.dat,起点中文网javascript中隐藏的forbidenwords,工信部传世之作(绿坝)中的falunword.lib等。它们,只是我们所接触到的一些软件或网站中为数不多的没隐藏好自己的孩子。在一些流量大的网站,如果你在一个著名的社区(比如说19lou吧)里写了一张长篇大论的贴子,我基本可以断定,这张帖子会由于敏感词的存在而让你发挥充分的想像力,利用比喻,排除等各式手法来将它们一一删除。这是件很痛苦的事情,因为它们在暗处,并且可能根本就不是你想的那样,如“1000块急转让一台独立服务器”中的倒数第5和第4个字,没有高超的断字技巧,你能知道这句话里在我们老大哥心中包含的深刻含义么?想快速的找到这些敏感词,我只能表示too young too simple, sometimes naive!
在可以预见的未来,当敏感词多于安全词;当河蟹战胜了草坭玛;我觉得像wordfileter.dat这样的黑名单将不复存在,取而代之的将是“Safewords.dat”这样的白名单,这就是我们的最高理想之一——网络言论的共産宔義!
注:本blog并未使用我收集的敏感词家族来进行言论过滤,所有火星文均在这里翻译所得,请自觉勿向我索要敏感词族谱,我是绝对不会通过QQ或Email的形式推送给你的!