华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 7779|回复: 2
打印 上一主题 下一主题

中文信息——放在沙面上的大桥(转)

[复制链接]
跳转到指定楼层
1
发表于 2010-2-8 11:30:11 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
中文信息——放在沙面上的大桥
转自北大中文信息化
一些人说,电脑处理汉字的难题已经解决了,即使还有点问题,等到电脑更先进了,就会解决的。
首先,要弄清楚解决的标准是什么?如果以汉字楷体可以输入到电脑屏幕上就算解决了,这与英文在电脑上的解决标准,相差千里之遥。正常的标准,起码也应该按英文在电脑上的处理程度为准才对。汉字在电脑上处理的情况与英文相比是什么程度呢?
1.英文是用26个字母在电脑上组建任何英文单词;汉字是用英文键盘代码从汉字库里提取整体汉字。字库里没有的,就提不出来。
2.英文用键盘直接打出任何单词;汉字用拼音输入法或笔画输入法将大批同码字一起调出,然后再逐个识别选取其中所需要的一个字。两者输入速度对比,快慢可知了。
3.英文用26个字母,建立起完整的独立自主的英文信息系统;而汉字楷体输入因为不能杜绝同码字,所以就无法建立独立自主的中文信息系统,中文信息就不得不挂接在英文信息系统上。
对于楷体汉字在电脑上出现的上述三个问题,有些人说是电脑还不够先进造成的,有些人说,电脑是说英语的人制造的,所以就不能处理汉字。这些人寄希望于电脑的高度发展来解决上述三个问题。提出这类看法的人们,可以说都是“电脑盲”,他们对电脑的结构原理和工作原理一窍不通。为此,特简要介绍一点电脑的基本常识:
电脑工作的基本原理就是进行二进制编码运算和逻辑运算。用来表示二进数元01的物理器件,种类是很多的:如果让电容器存电表示0,那么放电就表示1;晶体二极管通电表示0,断电就表示1;三极管高电位(例如0.1v)为0,低电位(例如0.05)就为1;光盘面上的凹点为0,平点就为1;磁盘上的铁粉带,有磁点为0,无磁点就为1;等等,凡是具有二态性并可控的东西,都可以表示二进制数元01
电脑的芯片,是由几千万个微型晶体二极管、三极管、电容等元件构成的。这些元件构成了二进制运算电路和“与门、非门、或门”基本逻辑运算和复合逻辑运算电路。它们怎样运行呢?他们是受电信号控制的。人们首先设定二极管通电表示0,断电表示1。然后用01的不同排列来表示不同的意思。例如:人们用四位编码制来表示0——9的数字,具体做法如下:第一,把四个二极管按从右至左的顺序排列起来,表示四位。第二,当四个管全通电时,即0000,代表数字0;当右边第一个管断电,第234个管通电时,即0001,代表数字1;依此类推,0010代表数字20011代表数字30100代表数字40101代表数字5……这样,用十组这样的二极管,就可以表示数字0123456789了。0101虽然可以表示5,但是并不就是人们通常认识的数字符号5,一般人并不晓得0101代表的是数字5。怎样把数字符号5与编码符号0101联系起来呢?这还需要一套关联逻辑电路和一个相应的关联程序,将二者联系起来,并把数字5显示在屏幕上和编辑文件里。为了便于操作,让人通过点击按钮的一个动作,能将这个关联程序启动起来。为了便于人机“对话”,就在按钮上标上“5”字。这样一来,只要人们想要电脑屏幕上显示5,就直接按一下按钮5就可以了。所以,人们就称按钮上所标的“5”字,为0101的键盘代码,而称0101为“5”的源码。现在英文键盘上的abcdF1F2123\/、;、。等键盘符号,就是按这个方式设计出来的。
自从出现了键盘代码以后,电脑的编程出现了一个重大的转变:由直接的源码编程变为间接的代码编程。例如,源码“1011011000000000”是一种电脑上的一条加法指令,用键盘代码代表这个指令后,就是“add(英文加法一词的缩写)”。这样就使人、机出现了直接的“对话”关系,即人们可以通过键盘上的文字符号与电脑直接交流信息。
为了实现人、机“对话”,在编制电脑的各种控制程序时,都必须把键盘代码所对应的源码作为关联任何程序源码的桥梁。否则,就无法实现人、机“对话”。
由于任何英文单词,都可以用键盘上所标出的26个英文字母按钮调动其源码表示出来,也可以说是“组建”出来。这样,电脑的所有的程序,都能以键盘代码为桥梁间接地用源码编制出来了。为了适应这种间接编程的需要,在电脑的芯片制作上,也必须增加很多相应的逻辑门电路,以支持这些关联程序。所以,现在的电脑芯片,在构造上是不能离开特定的软件而独立制作的,它必须以特定的软件为前提,来设计制造它的微晶管和逻辑电路,否则,它就不能运行这种软件。所以,随着软件功能的扩展,电脑的中央控制芯片的微晶管的数量也随之增多,由10年前的几百万个扩大到现在的上亿个,其逻辑控制电路也越来也复杂了。
目前电脑是怎样处理楷体汉字的呢?
因为汉字楷体在结构上是没有规范性、标准性和规律性的,目前的汉字,笔画最少的只有一笔,最多的有60多笔。所以,“点、横、竖、撇、捺”等基本构字元件,其长短、粗细,位置、方向等等空间参数,随每个字的不同而不同,因此,在构件上没有标准件;在组字方式是随机性的,无任何规律,所以没有规律可循。而机器组字,文字是必须具备规范性、标准性和规律性的。所以,汉字楷体是根本无法用机器组建出来。
因此,就只能对汉字进行整体加工:即利用Windows的图形处理功能,将各一个汉字整体作为各个小图形来存储和调用。基本方法是。首先赋予每一个汉字一个编码,把它存储在汉字库里。这个编码,就相当于汽车零件仓库里的零件名称和编号一样,是为了管理和提取用的。然后把每个汉字的编码与英文键盘代码(“汉语拼音输入法”键盘代码或“笔画输入法”键盘代码)关联起来。怎么关联呢?大家到图书阅览室就会看到,阅览室里的图书不是把所有的书籍不是毫无秩序地堆在一起的。为了便于管理和检取,是分类放在不同区域的书架上的。每一类的书架上还要贴上标签,例如:文学类、工业技术类、化工技术类、机电类、汽车类、电脑技术类等等。每一类书架,不是只有一种书籍,而是还有多个品种。找到标签就找到这类书籍了,你需要哪种书,你就到哪类书架内挑选出来。与此相似,每一组“汉语拼音输入法”键盘代码或“笔画输入法”键盘码,就相当于书架的一个“标签”,用键盘输入这个“标签”,就把汉字库内的这一“类”里的字都列出来了。
由于汉字库里存在着大量的同音异义字,所以,使用“汉语拼音输入法”时,每一组汉语拼音字母(其实是英文字母),大都“装有”多个同音异义字。例如“yi”就“装有”“一、以、意、益、等等”300多个。与此相同,由于汉字楷体在笔画结构上也有大量的同画字,所以,使用“笔画输入法”时,每一组键盘码,也会出现很多同码字。这是大家在使用“五笔输入法”时,都看到的。
今天,不论使用任何输入法,都是通过英文代码从汉字库里整体调取汉字的。先赋予每一个汉字一个库存编码,50000个汉字,就必须确定50000个库存编码,然后再用26个英文键盘代码组,来检取各个汉字的库存编码,这样,凡是与输入的键盘代码组相同的汉字编码的汉字,就都显示出来了。目前的汉字库一般存字10000个左右,最多的同码字就达到469个了,重码字越多打字就越慢。汉字目前已经达到50000多个,如果全部纳入字库,最多的重码字可能要达到几千个。电脑要首先从50000个字中逐个鉴别出所有的同码字来,然后打字员再从几千的同码字中寻找出一个需要的字来,要费多少时间?再说,社会在不断地前进,新事物在不断地出现,就应当不断的造新汉字来表示之。所以,汉字库的字数就得不断的扩大。否则,新字就不能被电脑使用。现在有一些人名用字,电脑就打不出来,原因就是因为汉字库里没有存入这个字。所以,随着社会的不断发展,新汉字不断地增加,字库就不断地膨胀,同码字就越来越多,输入也越来越慢。对电脑软件、硬件的要求越来越高。
所以,目前电脑在调用汉字方面,与用老式的铅字打字机相比,没什么本质的变化。只是把铅字字盘换成图形字库罢了。所以,先进的电脑给汉字带来的好处是很有限的。有人说用“词索输入法”可以提高输入速度。其实,“词索输入法”除了让电脑先从50000个汉字中找出同码字外,还必须再根据这些同码字关联出双音词或多音句来。其实,这种办法效果并不大,因为,汉语的二级词是任何人都可以随意组建的,是无限的。所以,再大的电脑词库,也不可能把无限的汉语词汇都包括进去。即使搞一个10000亿词的词库(这将使汉字打字程序变得十分复杂和庞大,用起来成本加大),也不能避免同音词和同音句的出现。
当年,对汉字文化圈的人们来说,面对突如其来的信息革命,一时想不出好的应对办法,用缩小汉字使用量的暂时方法来应付一时之需,先把常用的几千个汉字用字库检索法使用起来,也不失为是一种明智之举。但这种做法使汉字的使用数量还不如没有电脑时代的多。如果常期拖延下去不加改变,不让汉字全部用上并能无限扩展,将使汉字僵死,汉语退化,等于主动把汉语、汉字的主人位置让给外语、外文。有些人不认识压缩汉字和冻结汉字的严重后果,还把压缩汉字数量和冻结汉字的权宜之计,视为使汉字适应电脑特性的一个永久法宝,还要进一步削减已经使用的汉字数量,要把汉字限制在2000个之内。这就像看着百万雄师,因指挥不了而弃置不用,只能指挥几十个人的小分队一样。是最愚蠢的想法。
最严重的问题是,以汉字楷体为基础的中文信息,不能建立电脑信息系统。为什么?因为电脑在调取汉字楷体时,出现同码字。出现同码字,就出现代码的二义性,而编制程序的键盘代码是不准有二义性的,所以,这就造成了汉字楷体不能编制中文程序的结果。这样一来,汉字楷体的电脑信息,就只能挂接在英文信息系统上了。
以楷字为基础的汉字信息,不得不挂接在英文信息系统上,就失去了独立自主性,就必须听人家的摆布了。由此可见,整个中文信息系统,就如一座放在沙面上的大桥一样,“大水”一来,必然倒塌。所以,现在人家给你多大生存空间,你就得无条件的接受多大生存空间;人家对汉字定什么“国际标准”,你就得五体投地地接受这种“标准”。中国人要想造一个新汉字,没有“国际标准”的允许,是不能用在电脑上去的,中国人连造汉字的权利都丧失了。人家的基础程序一变,你就必须立即跟随变动,否则,你的中文信息网络就立即瘫痪。这种“城下之盟”,就是所谓的汉字与“国际接轨”。这种“国际标准”,把汉字牢牢地套死在僵化状态,让汉语、汉字彻底沦为“大户人家的小妾”。
由于汉字楷体不能建立中国独立自主的中文信息系统,不但使中国每年的枉费的资金达千万亿元,而且如被穿上鼻索的牛一样,必须随时听人家的使唤。中国作为一个世界大国,如果连中文信息系统都不能独立自主,那就永远成不了世界强国。
由以上分析可知,如果不把汉字楷体改进成具有系统性、规律性、规范性和标准性的,电脑可以用有限的元件构建无限的汉字,并且不会出现同码的汉字新体,即使中国制造出比美国的CPU更高级的芯片,也是不能建立起“纯中文信息系统”的。
在此,可能有人会说,要向“独立”还不容易?我们重新编一套“电脑操作基础程序”和其他所有的“二级程序”、“三级程序”,不就行了吗?中国人编制的“Linux”操作软件和“金山打字”软件,不就是独立于WindowsWord软件的吗?怎么不能被普遍使用?怎么不能建立“独立自主的纯中文信息网”呢?其实,Linux和金山软件,仍然是用英文代码为工具编制出来的,所用的“原料”还是与WindowsWord都是一样的,就如“馒头”与“花卷”的一样,形状虽然不同,而原料还是一样的都是“麦粉”。所以还是不能建立起独立自主的纯中文信息系统的。
在认识了电脑是怎样处理楷字的原理以后,就应当知道,即使中国自己制造出比美国Intel公司的CPU更高级的芯片,只要电脑的原理不变、汉字楷体不变,就如象牙雕刻工遇到朽木头一样,是无论如何也加工不出“象牙塔”的了。
在信息起决定作用的、电脑信息覆盖社会一切的现代化社会里,一切信息又都必须通过电脑来处理,而电脑处理信息的人、机交换的主要桥梁就是文字。哪种文字最先成为电脑使用的文字,它就占据了主导地位,成了第一桥梁(人——英文——信息交换码(源码)——电脑)。其它文字,一般就得再通过它作为第二级桥梁(人——其它文字——英文——信息交换码(源码)——电脑),才能得到电脑处理;要想取代它成为第一桥梁,就必须从电脑的硬件到软件,进行全套的更新。这种更新,是一个很复杂的、成本很高的工程。随着现代社会的飞速发展,电脑的硬件和软件也随之越来越复杂、浩大,要进行全套的更新,其难度和成本也就越来越大。
但是,只要把汉字楷体升级为"意音双表新体汉字",就完全彻底地甩掉了汉字楷体的一切缺点,即使用外国的芯片也能建立起独立自主的中文信息系统。
目前我国不是没有能力制造电脑硬件,也不是创造不出可以克服汉字楷体所凸现的一切缺点和问题的新体汉字来建立起独立自主的中文信息系统。为什么还仅仅满足于电脑可以显示几千的汉字呢?为什么不追求电脑处理汉字像处理英文那样的高标准呢?
今天如果把汉字楷体升级为"意、音双表新体汉字",就能立即甩掉汉字楷体的一切缺点和问题,就能立即建立起独立自主的中文信息系统,就必然创建出领先世界的中文信息产业。中国每年为汉字楷体的缺点所浪费的千万亿元的财富就节约了。由此就断绝了那些靠楷体字的缺点发财者的财路。所以,对这些人来说,不怕中国的“龙芯”出现,就怕中国的楷体改变。所以,这类人就制造各种谎言,企图阻止改进汉字楷体。
2
发表于 2010-3-5 20:39:40 | 只看该作者
好长啊。学习一下。
3
发表于 2010-3-6 09:27:01 | 只看该作者
只要把汉字楷体升级为"意音双表新体汉字"   没有看明白
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2025-12-23 22:31

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表