华宇拼音输入法论坛
标题: 汉字编码字符集的历史发展(转帖) [打印本页]
作者: sanwsw 时间: 2007-11-19 16:44
标题: 汉字编码字符集的历史发展(转帖)
[摘要] 汉字编码是中文信息处理的基础。在汉字编码史上,曾出现过五个影响较大的方案,为中文信息处理作出了贡献。汉字编码发展的方向,是世界范围内“书同文,字同码”,减少各个国家和地区因汉字编码不同造成的信息交流障碍。
字符的编码是信息处理中最重要的标准,是信息处理的基础。所谓编码,是以固定的顺序排列字符,并以此做为记录、存贮、传递、交换的统一内部特征,这个字符排列顺序被称为“编码”。汉字编码的历史,可以划分为两个阶段:
(1)GB码。20年前GB2312-80的公布、各种汉字输入法和汉字编辑软件的研制成功,使计算机处理中文信息变为现实。GB码全称是《GB2312-80 信息交换用汉字编码字符集 基本集》。这个字符集是1980公布的。在研制过程中,既参考了《第一批异体字整理表》(1955)、《简化字总表》(1964)和《印刷通用汉字字形表》(1965)等汉字规范标准,又兼顾了当时信息处理的实际需要,以汉字频度的高低、构词能力的强弱、实际用处的大小为原则进行选字,共汉字6763个,其中一级字3755,按拼音排序,二级字3008,按偏旁排序;收录符号682个。
GB2312选定能容纳数万汉字的中西文兼容的编码体系。用两个七位字节表示汉字的编码方案。设定若干编码集合,每个可容纳8836个字符,这样只要选用几个集合,就能解决全部汉字编码的问题。 GB2312-80是第一个汉字信息技术标准,也是我国信息技术领域内重要的基础标准。该标准的制定和应用为规范、推动中文信息化进程起了很大作用。有人称GB2312-80字符集是“汉字信息技术的秦始皇”[1],这话一点儿也不过分。这个字符集广泛运用国内DOS软件和简体Windows 3.2中。
GB2312只是对广泛通用的汉字进行编码,它适用于一般汉字信息处理系统的要求。继GB2312之后,又扩充制定了几个辅助集:
GB 12345-1990
信息交换用汉字编码字符集
第一辅助集
GB/T 7589-1987
信息交换用汉字编码字符集
第二辅助集
GB 13131-1991
信息交换用汉字编码字符集
第三辅助集
GB/T 7590-1987
信息交换用汉字编码字符集
第四辅助集
GB 13132-1991
信息交换用汉字编码字符集
第五辅助集
GB/T 16500-1998
信息交换用汉字编码字符集
第七辅助集
基本集和第二、第四辅助集是简化字体;第一、三、五、七辅助集是繁体字集。同时,基本集与辅一集、辅二集、辅三集、辅四集与辅五集中的汉字分别有简、繁体的一一对应关系,也即第一、三、五辅助集分别是基本集、第二、四辅助集是繁体字影射集,并且简/繁体字在两个字符集中同码(个别简/繁关系为一对多的汉字除外)。
这几个辅助集标准,共收了约四万个汉字,它们形成了汉字交换码的标准系列。比如1990年制定的繁体字的编码标准GB12345-90《信息交换用汉字编码字符集
第一辅助集》,目的在于规范必须使用繁体字的各种场合,以及古籍整理等。该标准共收录6866个汉字(比GB2312多103个字,其它厂商的字库大多不包括这些字),纯繁体的字2200余个。
1983年10月,台湾国家科学委员会、教育部国语推行委员会、中央标准局、行政院共同制定了《通用汉字标准交换码》,后经修订于1992年5月公布,更名为《中文标准交换码》,BIG5是台湾资讯工业策进会根据以上标准制定的编码方案。
BIG5码是双字节编码方案,其中第一个字节的值在OXAO-OXFE之间,第二个字节在OX40-OX7E和OXA1-OXFE之间。
BIG5收录13461个汉字和符号,包括:符号408个,编码位置A140-A3BE。常用字5401个,编码位置A440-C67E,包括台湾教育部颁布的《常用国字标准字体表》的全部汉字4808个,台湾教科书常用字587个,异体字6个。次常用字7652个,编码位置C940-F9D5,包括台湾教育部颁布的《次常用国字标准字体表》的全部汉字6341个,《罕用国字标准字体表》中使用频率较高的字1311个。
BIG5是是目前台湾、香港地区普遍使用的一种繁体汉字的编码标准。
此外日、韩等汉字文化圈国家,由于存在各自的利益,在汉字交换码标准各唱各的戏,形成了多码并存、互不兼容的局面,给汉字信息交换带来了相当的混乱。80年代中期,西文已在信息高速公路上加速前行,汉字却仍在信息高速公路上开着拖拉机。
国际标准组织于1984年4月成立ISO/IEC JTC1/SC2/WG2工作组,针对各国文字、符号进行统一性编码。1993年国际标准化组织发布了ISO/IEC 10646-1《信息技术通用多八位编码字符集
第一部分体系结构与基本多文种平面》,奠定了汉字国际统一编码的基础。
HZ码:HZ码是在Internet上广泛使用的一种汉字编码。
ISO-2022CJK码:IOS-2022是国际标准组织(ISO)为各种语言字符制定的编码标准。采用二个字节编码,其中汉语编码称ISO-2022 CN,日语、韩语的编码分别称JP、KR。一般将三者合称CJK码。目前CJK码主要在Internet网络中使用。
(1)Unicode编码(Universal Multiple Octet Coded Character Set)
1991年美国跨国公司成立Unicode Consortium,并于1991年10月与WG2达成协议,采用同一编码字集。目前Unicode是采用16位编码体系,其字符集内容与ISO10646的BMP(Basic Multilingual Plane)相同。Unicode是一种用于使网页和软件界面中的文本具有全球可读性的编码格式。这项标准利用向它所支持的24种语言中的每一个字符分配惟一的代码发挥作用。例如,英文和俄文中的对应字符共享相同的代码。当开发人员利用Unicode格式编码的数据建立英文网站时,用户可以将浏览器设置为显示俄文字母,网站就会变成俄文显示。Unicode于1992年6月通过DIS(Draf International Standard),目前版本V2.0于1996公布,内容包含符号6811个,汉字20902个,韩文拼音11172个,造字区6400个,保留20249个,共计65534个。
Unicode编码标准得到了微软、Oracle、IBM、惠普和康柏等国外巨头的支持和推崇,已经成为开发商普遍使用的编码格式。软件咨询员Erb说,Java编程语言是100%利用Unicode开发的。这意味着用Java语言编写的应用无需额外的编程就可从英语翻译为这种数据格式支持的任何语言。Unicode还是XML和HTML的缺省编码格式。
ISO/IEC 10646-1为世界各民族文字统一编码,架起了一座桥梁。为了取得电脑时代的“书同文”,我国等同采用此标准制定了GB 13000.1-1993。该标准于1992年公布,采用了全新的多文种编码体系。
它收录了1986年重新发表的《简化字总表》和1988年公布的《现代汉语通用字表》的全部规范汉字,完全兼容GB2312-80标准,与国际标准ISO/IEC10646-1对应接轨,并包含了台湾BIG5编码中的所有汉字,共有汉字和偏旁21003个。
由于其新的编码体系与现有多数操作系统和外部设备不兼容,所以它的实现仍需要有一个过程,目前还不能完全解决我国当前应用的迫切需要。
GBK编码(Chinese Internal Code Specification)
GBK编码是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准。该编码是在GB2312-80标准基础上的内码扩展规范,使用了双字节编码方案,其编码范围从8140至FEFE(剔除xx7F),共23940个码位,共收录汉字21003个、符号883个,并提供1894个造字码位,简、繁体字融于一库,完全兼容GB2312-80标准,支持国际标准ISO/IEC10646-1和国家标准GB13000.1中的全部中日韩汉字,并包含了BIG5编码中的所有汉字。GBK编码方案的标准名称是《汉字扩展规范GBK 1.0》,它是由全国信息技术标准化技术委员会制定1995年10月制订、同年12月正式发布的。微软1995年以后的操作系统,如Windows95/98/NT/ME及Windows 2000简体中文版都支持GBK编码方案,其字库表层编码就采用的是GBK编码,通过GBK与UCS之间一一对应的码表与底层字库联系。
伴随GBK字库的推广使用,中国新华通讯社于2000年1月1日起开始使用GBK编码向各新闻单位播发新闻稿。2000年4月1日起,中国银行业开始推行“储蓄实名制”。同时,各种出版物已开始向网络化发展,网上发布新闻、网络出版已是大势所趋,通过网络传播信息的广度和深度对汉字使用提出了更高要求,GBK字库是缓解人名和地名等冷僻字的“当然之选”。
GB 18030-2000全称是《
信息技术
信息交换用汉字编码字符集
基本集的扩充》,由信息产业部和原国家质量技术监督局于2000年3月17日联合发布,作为国家强制性标准自发布之日起实施[2]。
为了适应信息处理技术快速发展的需要,1998年10月,由信息产业部电子四所、北京大学计算机技术研究所、北大方正集团、新天地公司、四通新世纪公司、中科院软件所、长城软件公司、中软总公司、金山软件公司和联想公司的技术人员组成标准起草组。在标准研制过程中,全国信息技术标准化技术委员会多次召集标准起草组和知名公司对标准草案进行充分地研究论证,并且特邀了微软公司、惠普公司、Sun公司和IBM公司等参加,广泛征求意见。标准起草组经过反复斟酌和验证,提出了标准制定原则——与GB 2312信息处理交换码所对应的事实上的内码标准兼容,在字汇上支持GB 13000.1的全部中、日、韩(CJK)统一汉字字符和全部CJK扩充A的字符,并且确定了编码体系和27484个汉字,形成兼容性、扩展性、前瞻性兼备的方案。
该标准采用单字节、双字节和四字节三种方式对字符编码。单字节部分采用GB/T 11383的编码结构与规则,使用0×00至0×7F码位(对应于ASCII码的相应码位)。
双字节部分,首字节码位从0×81至0×FE,尾字节码位分别是0×40至0×7E和0×80至0×FE。收录内容主要包括GB13000.1全部CJK汉字20902个、有关标点符号、表意文字描述符13个、增补的汉字和部首/构件80个、双字节编码的欧元符号等。详细内容如下:
GB 13000.1的CJK兼容区挑选出来的21个汉字。
GB 13000.1中收录而GB 2312未收录的我国台湾地区使用的图形字符139个。
GB 2312未收录的5个带音调的汉语拼音字母等。
四字节部分收录了上述双字节字符之外的,包括CJK统一汉字扩充A在内的GB 13000.1中的全部字符。采用GB/T 11383未采用的0×30到0×39作为对双字节编码扩充的后缀,这样扩充的四字节编码,其范围为0×81308130到0×FE39FE39。其中第一、三个字节编码码位均为0×81至0×FE,第二、四个字节编码码位均为0×30至0×39。码位总体结构见右图。
科学的编码方案,创造了丰富的码位。单字节编码129个码位,双字节编码23940个码位,四字节编码1587600个码位,总编码空间超过150万个码位,目前已编码的字符约2.6万。随着我国汉字整理和编码研究工作的不断深入,以及国际标准ISO/IEC 10646的不断发展,GB18030所收录的字符将在新版本中增加。
由于GB18030-2000 标准在技术上是GBK的超集,并与其兼容,因此,GBK将结束其历史使命。
微软新的操作系统Windows XP中文版,将支持最新标准。
以上三个编码标准,可以看作是计算机信息处理汉字编码的“通用”标准。汉字编码发展的方向,是世界范围内“书同文,字同码”,减少各个国家和地区因汉字编码不同造成的信息交流障碍。
此外,为了解决特殊行业的用字和印刷出版需要,我国软件公司还独自研制出一些超大型字库:
我国著名软件厂商北大方正研制出一套“方正超大字库”,该字库支持65000个汉字及偏旁。微软在2001年6月推出的Office xp,已捆绑了这套字库。使用Office xp的用户,将享受到超大字库带来的便利。方正还生产出一套“方正宋一超大字库”,编码方案采用GBK编码,分成三个字库,将汉字扩充到70244字,2月16日通过了新闻出版署、国家语委、全国印刷字体工作委员会的联合审定[3]。
由北京中易电子公司和中国标准技术开发公司联合开发的“郑码超级汉字系统————《全汉桥2000》”由郑码汉字编码输入系统、万能曲线造字系统、10万字汉字字库、全汉桥2000超级汉字处理系统4个系统集合而成。字库中收录的10个汉字,涵盖了《康熙字典》、《巾华大字典》、《中华字海》中的全部字汇,可使用 Ms—Word的原有功能进行文件编辑、横竖排版、制作表格、查找汉字、变换字体大小、选用其他标题字体等,并能将所有10万汉字打印输出[4]。
与字库相联系的两个重要问题,一是字体,二是输入法。
先说字体。现在Windows95/98/NT/ME及Windows 2000简体中文版虽然都支持GBK编码方案,但所提供的四种显示、打印字体中,只有宋体、黑体支持21003个汉字,仿宋、楷体只支持GB2312-80的6763个汉字,给用户带来不便。
再说汉字的输入法。字库更新了,输入法码表的字词也应该作相应更改。但微软为我们提供的输入法却还是老面孔,存在着不少缺陷。所以我们建议输入法的研制者能根据GB/T18031-2000《信息技术数字键盘汉字输入通用要求》和国家语言文字规范标准适时地更新,使之更加实用,更加科学规范。
至于有人提议要更新“通用字库”:更正不规范字、减少罕用字、增加通用字[5]。如果这种“更新”是指机器底层字库编码而言,这似乎不符合汉字字库规范的方向。如果要“更新”的话,也只是在原来的基础上增加,而不是取消和减少。因为“世界通用的汉字字库”不仅为中国大陆使用,也为日本、韩国、新加坡和我国港、澳、台等国家和地区使用。正像我们不可能把所有的字典的繁体字、异体字都删除一样,电脑字库的“不规范字”仍然需要保留。即使在我们国家,也不可能只使用简化字、古籍整理和教学研究有时也需要繁体字,我们电脑中使用的字库,只要能提供我国发布的规范汉字标准的规范字,比如说能够排印出《现代汉语通用字表》,就不能算违背《国家通用语言文字法》。如果说这里的“通用字库”仅指大陆简体字输入法码表的字词,我是赞同高先生的观点的,汉字输入法应该而且必须加以规范。支持GB 13000.1和GB 18030字符标准的汉字输入法应该能够输入《现代汉语通用字表》的7000个汉字和由这些字构成的规范词语。
[1]黄伟敏
肖春江.“汉字”再统一——张轴材谈汉字交换码标准建立历程.计算机世界,1999-08-23.
[2]信息产业部颁布两项标准.人民日报,2000-03-27.
[3]杨健.最新汉字库挑战生僻字.人民日报,2001-09-19.
[4]刘红灿.我国完成世界最大的计算机汉字库开发.新民晚报,1999-01-30.
[5]高更生.电脑通用字库应当更新.语文建设,2001,(8).
作者: 野风 时间: 2007-11-19 17:06
支持!
沙发!
| 欢迎光临 华宇拼音输入法论坛 (http://bbs.pinyin.thunisoft.com/) |
Powered by Discuz! X3.2 |