华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 18361|回复: 26
打印 上一主题 下一主题

GB18030大字集标准

[复制链接]
跳转到指定楼层
1
发表于 2009-8-4 16:02:50 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
  GBK作为行业规范,缺乏足够的强制力,不利于其本身的推广,而GB 13000的实现又脚步缓慢,现有汉字编码字符集标准已经不能满足我国信息化建设的需要。在银行、交通、公安、户政、出版印刷、国土资源管理等行业,对新的、大型的汉字编码字符集标准的要求尤其迫切。
为此,原国家质量技术监督局和信息产业部组织专家制定发布了新的编码字符集标准,GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》。
  GB18030是国家制定的一个强制性大字集标准,全称为GB18030-2000,凡在中国大陆销售的国内外中文电脑,都必须能够处理27533个汉字,否则将不准销售。它的推出使我国港台地区及其他国家使用的汉字集有了一个"大一统"的标准。
  GB18030 是最新的汉字编码字符集国家标准, 向下兼容 GBK 和 GB2312 标准。 GB18030 编码是一二四字节变长编码。一字节部分从 0x0~0x7F 与 ASCII 编码兼容。 二字节部分, 首字节从 0x81~0xFE, 尾字节从 0x40~0x7E 以及 0x80~0xFE, 与 GBK 标准基本兼容。 四字节部分, 第一字节从 0x81~0xFE, 第二字节从 0x30~0x39, 第三和第四字节的范围和前两个字节分别相同。 四字节部分覆盖了从 0x0080 开始, 除去二字节部分已经覆盖的所有 Unicode 3.1 码位。也就是说, GB18030 编码在码位空间上做到了与 Unicode 标准一一对应,这一点与 UTF-8 编码类似。GB 18030总共1587600个码位。GB 18030的编码空间达到了总共23940 + 1587600。它不仅可以收录我们需要的全部汉字,而且还有充足的空间收录我国少数民族文字。在2000年版中,GB 18030收录了ISO/IEC 10646.1: 2000的全部27484个CJK统一汉字,13个表意文字描述符、部分汉字部首和部件、欧元符号。在编码体系上,GB 18030统一了内码和交换码的概念。它完全兼容GB 2312和GBK的编码体系,继承GBK的代码映射表的优点,解决了GB 18030和GB 13000之间的代码转换。
2
发表于 2009-8-4 17:28:35 | 只看该作者
为老戴捧捧场,上传一个宋体18030和新宋体18030的字体。

请用winzip12.1及以上的版本解压。

宋体18030&新宋体18030.zip

5.37 MB, 下载次数: 4147

3
 楼主| 发表于 2009-8-4 21:30:30 | 只看该作者

GB 18030


码位总体结构
  国家标准GB18030-2000《信息交换用汉字编码字符集基本集的扩充》是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准,是我国计算机系统必须遵循的基础性标准之一。
  GB18030目前的最新版本是GB18030-2005。GB18030-2005与GB18030-2000的编码体系结构是完全相同的。GB18030-2005相对于GB18030-2000主要有以下变化:
  1、在四字节字符表中增加CJK统一汉字扩充B和已经在GB13000中编码的我国少数民族文字字符的字形。其实GB18030-2000已经映射了这些码位,但GB18030-2000没有给出这些字符的字形。
  2、调整字符?的编码。
  3、去掉了单字节编码的欧元符号(0x80)。
按国际惯例制定标准
  GB 18030-2000收录了27533个汉字,GB 18030-2005收录了70244个汉字。GB18030的总编码空间超过150万个码位,为解决人名、地名用字问题提供了方案,为汉字研究、古籍整理等领域提供了统一的信息平台基础。
  目前,我国大部分计算机系统仍然采用GB 2312编码。GB 18030与GB 2312一脉相承,较好地解决了旧系统向新系统的转换问题,并且改造成本较小。从我国信息技术和信息产业发展的角度出发,考虑到解决我国用户的需要及解决现有系统的兼容性和对多种操作系统的支持,采用GB 18030是我国目前较好的选择,而GB 13000.1更适用于未来国际间的信息交换。考虑到GB 18030和GB 13000的兼容问题,标准起草组编制了GB 18030与GB 13000.1的代码映射表,使得两个编码体系可以自由转换。同时,还开发了GB 18030基本点阵字型库。
  世界许多国家和地区从方便本国和民族应用的角度出发,制定了相应的编码标准和内码体系,如日本的JIS X 0208和JIS X 0212,韩国的KS C 5601和KS C 5657等,这是国际上采用的通行惯例。制定GB 18030同样符合国际惯例,它全面兼容GB 2312,在字汇上兼容GB 13000.1,可以充分利用已有资源,保证不同系统间的兼容性,最大限度地共享资源,为我国软件产业留有巨大的发展空间。可以相信,GB 18030的实施将有利于国产软件的发展并形成规模,使我国的中文信息技术再上一个台阶。
  从沿革看新标准
  1980年我国颁布了第一个汉字编码字符集标准,即GB 2312-80《信息交换用汉字编码字符集基本集》。该标准共收了6763个汉字及常用符号,奠定了中文信息处理的基础。
  随着国际间的交流与合作的扩大,信息处理应用对字符集提出了多文种、大字量、多用途的要求。1993年国际标准化组织发布了ISO/IEC 10646-1《信息技术通用多八位编码字符集第一部分体系结构与基本多文种平面》。我国等同采用此标准制定了GB 13000.1-1993。该标准采用了全新的多文种编码体系,收录了中、日、韩20902个汉字,是编码体系未来发展方向。由于其新的编码体系与现有多数操作系统和外部设备不兼容,所以它的实现仍需要有一个过程,目前还不能完全解决我国当前应用的迫切需要。
  考虑到GB 13000的完全实现有待时日,以及GB 2312编码体系的延续性和现有资源和系统的有效利用与过渡,我们选择了在GB 2312(GB 2311)的基础上进行扩充,并且在字汇上与GB 13000.1兼容的方案,研制一个新的标准——汉字编码基本集的扩充,进而完善GB 2312,以满足我国邮政、户政、金融、地理信息系统等应用的迫切需要。
  此项目业已列入一九九八年国家标准制定计划。1998年10月,由信息产业部电子四所、北京大学计算机技术研究所、北大方正集团、新天地公司、四通新世纪公司、中科院软件所、长城软件公司、中软总公司、金山软件公司和联想公司的技术人员组成标准起草组。在标准研制过程中,全国信息技术标准化技术委员会多次召集标准起草组和知名公司对标准草案进行充分地研究论证,并且特邀了微软公司、惠普公司、Sun公司和IBM公司等参加,广泛征求意见。标准起草组经过反复斟酌和验证,提出了标准制定原则——与GB 2312信息处理交换码所对应的事实上的内码标准兼容,在字汇上支持GB 13000.1的全部中、日、韩(CJK)统一汉字字符和全部CJK扩充A的字符,并且确定了编码体系和27484个汉字,形成兼容性、扩展性、前瞻性兼备的方案。
  信息产业部和原国家质量技术监督局于2000年3月17日联合发布了该标准,即GB 18030-2000《信息技术信息交换用汉字编码字符集基本集的扩充》。该标准作为国家强制性标准自发布之日起实施,过渡期到2001年8月31日止。
  期间,全国信标委曾制定和发布《汉字扩展规范GBK 1.0》,并在MS Windows 9x/Me/NT/2000、IBM OS/2的系统中广泛应用。GB18030是国家标准,在技术上是GBK的超集,并与其兼容,因此,GBK将结束其历史使命。
标准的技术要点
  1.总体结构
  标准采用单字节、双字节和四字节三种方式对字符编码。单字节部分采用GB/T 11383的编码结构与规则,使用0×00至0×7F码位(对应于ASCII码的相应码位)。双字节部分,首字节码位从0×81至0×FE,尾字节码位分别是0×40至0×7E和0×80至0×FE。四字节部分采用GB/T 11383未采用的0×30到0×39作为对双字节编码扩充的后缀,这样扩充的四字节编码,其范围为0×81308130到0×FE39FE39。其中第一、三个字节编码码位均为0×81至0×FE,第二、四个字节编码码位均为0×30至0×39。码位总体结构见右图。
  2.GB18030-2000的字汇
  单字节部分收录了GB 11383的0x00到0x7F全部128个字符及单字节编码的欧元符号。
  双字节的部分收录内容如下:
  GB 13000.1的全部CJK统一汉字字符。
  GB 13000.1的CJK兼容区挑选出来的21个汉字。
  GB 13000.1中收录而GB 2312未收录的我国台湾地区使用的图形字符139个。
  GB 13000.1收录的其它字符31个。
  GB 2312中的非汉字符号。
  GB 12345 的竖排标点符号19个。
  GB 2312未收录的10个小写罗马数字。
  GB 2312未收录的带音调的汉语拼音字母5个以及ɑ 和ɡ 。
  汉字数字“〇”。
  表意文字描述符13个。
  增补汉字和部首/构件80个。
  双字节编码的欧元符号。
  四字节部分收录了上述双字节字符之外的,包括CJK统一汉字扩充A在内的GB 13000.1 中的全部字符。 
  3.GB18030-2005的字汇
  单字节的部分收录了GB/T 11383-1989的0x00到0x7F全部128个字符。
  双字节的部分收录内容如下:
  GB 13000.1-1993的全部CJK统一汉字字符。
  GB 13000.1-1993的CJK兼容区挑选出来的21个汉字。
  GB 13000.1-1993中收录而GB 2312未收录的我国台湾地区使用的图形字符139个。
  GB 13000.1-1993收录的其它字符31个。见附录A。
  GB 2312中的非汉字符号。见附录A。
  GB 12345 的竖排标点符号19个。见附录A。
  GB 2312未收录的10个小写罗马数字。见附录A。
  GB 2312未收录的带音调的汉语拼音字母5个以及ɑ 和ɡ 。
  汉字数字“〇”。
  表意文字描述符13个。
  对GB 13000.1-1993增补的汉字和部首/构件80个。
  双字节编码的欧元符号。
  四字节部分收录了上述双字节字符之外的,GB 13000的CJK统一汉字扩充A、CJK统一汉字扩充B和已经在GB13000中编码的我国少数民族文字的字符。
  GB18030有1611668个码位,在GB18030-2005中定义了76556个字符。随着我国汉字整理和编码研究工作的不断深入,以及国际标准ISO/IEC 10646的不断发展,GB18030所收录的字符将在新版本中增加。



[ 本帖最后由 sanwsw 于 2009-8-4 21:31 编辑 ]
4
发表于 2009-8-4 23:48:24 | 只看该作者


学习了
5
发表于 2009-8-5 00:33:41 | 只看该作者
这种基础性根本性的工作,国家应该倾大力完善和改进之……
发布善本标准,并且应强制在我国境内销售发布的收费软件必须无条件贯彻执行之……
尤其是基础性软件,如操作系统等…排版软件…字处理软件…通用输入法等……

有效执行,才是最重要的!
6
发表于 2009-8-5 09:51:34 | 只看该作者
原帖由 野风 于 2009-8-4 17:28 发表
为老戴捧捧场,上传一个宋体18030和新宋体18030的字体。

请用winzip12.1及以上的版本解压。


哇,野风兄,真是大方呀,我太喜欢了,呵呵。
7
发表于 2009-8-5 09:57:55 | 只看该作者
原帖由 HESHILIE 于 2009-8-5 09:51 发表


哇,野风兄,真是大方呀,我太喜欢了,呵呵。


兄弟你太客气了!
嘻嘻,我在江民看到你了!
8
发表于 2009-8-5 09:58:55 | 只看该作者
向“sanwsw”兄,学习知识了。谢谢,“sanwsw”兄!
9
发表于 2009-8-5 10:00:54 | 只看该作者
原帖由 野风 于 2009-8-5 09:57 发表


兄弟你太客气了!
嘻嘻,我在江民看到你了!


,难不成你也是江民的老用户,没有办法,起了我这么个怪名字的ID不太多……


呵呵,让你给找到了……
10
发表于 2009-8-5 11:46:47 | 只看该作者
11
发表于 2009-8-5 18:24:46 | 只看该作者
现在的江民好用吗?2003年以后就用瑞星了
说真的,瑞星推广做得好,效果一般般
12
发表于 2009-8-5 21:21:58 | 只看该作者
我从99年以来一直在用江民。我觉得杀毒、主动防御能力都很不错。对比瑞星,江民差的是易用性,不熟悉的人用起来有些麻烦吧。
题外话了。
13
发表于 2009-8-5 22:12:41 | 只看该作者
我用过几乎全系列的杀毒软件:卡巴斯基、瑞星、金山、诺顿、麦咖啡等很多杀毒软件的,综合起来占用内存最少,杀毒相对来说最安全的,就是江民了。卡巴斯基也不错,但是对内存及系统的占用太大了,所以有个外号就是:“咔吧就死机”!意思就是说卡巴斯基占用的内存太狠了,一运行起来,你的机器的CPU及内存小的话,几乎慢的要命了,一下子就死机了!

[ 本帖最后由 HESHILIE 于 2009-8-6 06:28 编辑 ]
14
发表于 2009-8-6 00:27:36 | 只看该作者
我到觉得江民不用什么配置,很好用.
我基本没有中过招
从当年的kv100(好像),一直在用.
15
发表于 2009-8-6 12:23:43 | 只看该作者
原帖由 HESHILIE 于 2009-8-5 22:12 发表
我用过几乎全系列的杀毒软件:卡巴斯基、瑞星、金山、诺顿、麦咖啡等很多杀毒软件的,综合起来占用内存最少,杀毒相对来说最安全的,就是江民了。卡巴斯基也不错,但是对内存及系统的占用太大了,所以有个外号就是: ...


国产杀毒,最看好的就是毒霸了,江民在DOS年代很好,现在没落了。瑞星之流是最差的。
卡巴斯基很强,设置好后一点都不卡,宁可错杀三千,不可放过一个。
诺顿温文尔雅,不死不活。
占用内存最少的是NOD32。早在win98年代,中国还不是很流行NOD32的时候就用过了。
mcafee,高手才用的防御软件。防毒为主,杀毒为次。既然防住了病毒,还需要杀毒吗?呵呵……强大的策略,连广告都休想在硬盘上安营扎寨。
16
发表于 2009-8-6 12:26:33 | 只看该作者
原帖由 野风 于 2009-8-4 17:28 发表
为老戴捧捧场,上传一个宋体18030和新宋体18030的字体。

请用winzip12.1及以上的版本解压。



为什么不用RAR格式啊,难怪winrar解压缩出错,还好机器上有7-zip……
现在有几个人机器上还装winzip12啊,非主流啊……
17
发表于 2009-8-6 12:30:16 | 只看该作者
原帖由 sanwsw 于 2009-8-4 16:02 发表
  GBK作为行业规范,缺乏足够的强制力,不利于其本身的推广,而GB 13000的实现又脚步缓慢,现有汉字编码字符集标准已经不能满足我国信息化建设的需要。在银行、交通、公安、户政、出版印刷、国土资源管理等行业,对 ...


请问这个标准的官网发布链接在哪?
18
发表于 2009-8-6 12:33:41 | 只看该作者
原帖由 野风 于 2009-8-4 17:28 发表
为老戴捧捧场,上传一个宋体18030和新宋体18030的字体。

请用winzip12.1及以上的版本解压。



请问,我在word中将一片文本的字体设为新宋体18030,怎么没反应?显示还是原来的字体,原先的字体是其它的广告字体。
19
发表于 2009-8-6 12:45:36 | 只看该作者
原帖由 sanwsw 于 2009-8-4 16:02 发表
  GBK作为行业规范,缺乏足够的强制力,不利于其本身的推广,而GB 13000的实现又脚步缓慢,现有汉字编码字符集标准已经不能满足我国信息化建设的需要。在银行、交通、公安、户政、出版印刷、国土资源管理等行业,对 ...


早该强制执行了,我帮女儿取个名字,妇幼保健院的护士居然拿本1980年的字典查字,找不到,还在病房喇叭里哇啦哇啦的叫我速去产房,什么事情都不说,把我吓出一身冷汗,彻底没想法了。
20
发表于 2009-8-6 12:51:26 | 只看该作者
原帖由 cdrwking 于 2009-8-6 12:26 发表


为什么不用RAR格式啊,难怪winrar解压缩出错,还好机器上有7-zip……
现在有几个人机器上还装winzip12啊,非主流啊……


那是国内,国外的机器上基本上全是winzip,我们公司是跨国集团,全集团统一使用winzip,就是因为有人擅自使用了winrar发到国外客户,人家打不开,投诉了……
21
发表于 2009-8-6 12:55:59 | 只看该作者
原帖由 cdrwking 于 2009-8-6 12:33 发表


请问,我在word中将一片文本的字体设为新宋体18030,怎么没反应?显示还是原来的字体,原先的字体是其它的广告字体。


它还是宋体,只不过是能显示原来不能显示的冷僻汉字了。而这些汉字,恐怕还没有一个拼音输入法能输出呢。
22
发表于 2009-8-6 13:02:03 | 只看该作者
原帖由 野风 于 2009-8-6 12:51 发表


那是国内,国外的机器上基本上全是winzip,我们公司是跨国集团,全集团统一使用winzip,就是因为有人擅自使用了winrar发到国外客户,人家打不开,投诉了……


你公司是什么公司啊??
你那位同事也够可以的,winrar也能压缩成zip,他不知道吗?国外机器用zip,那是因为xp系统默认支持zip格式……
我们公司统一winrar,winzip也是很老的版本。
23
发表于 2009-8-6 18:20:35 | 只看该作者
原帖由 cdrwking 于 2009-8-6 13:02 发表


你公司是什么公司啊??
你那位同事也够可以的,winrar也能压缩成zip,他不知道吗?国外机器用zip,那是因为xp系统默认支持zip格式……
我们公司统一winrar,winzip也是很老的版本。


呵呵,问题是她不知道国外的客户不用winrar……
一方面是操作系统默认的是winzip格式,另一方面,用winzip也是购买大客户使用权的,统一部署,统一升级的;不然我用winzip压缩的文件winrar也不会打不开了(winrar只是不能打开.zipx)。再者,我在这个企业里用winzip7、8年了,也习惯了。

注:公司规定只能使用winzip是“防呆措施”,以避免不“小心”发生的错误。
24
 楼主| 发表于 2009-8-6 20:43:54 | 只看该作者
引用于:http://www.byscrj.cn/jmm/indexComputing.htm

漢字字符集(字庫)概況  
字體名後面的數字,是指能顯示的GBK + CJK-Ext-A + CJK-Ext-B漢字的箇數。

GB-2312字符集: 6763箇簡體漢字,715箇符號,總計7478箇字符

GBK字符集: 21003箇簡繁體漢字,882箇符號,共計21885箇字符

(包含BIG-5字符集:13060箇繁體漢字 + 808箇符號 =13868箇字符)

GB18030字符集:GBK字符集 + CJK Ext-A = 27533箇漢字

(CJK-A中有52字與GBK中的漢字重複,但內碼不同,在計總數時不算在內)

Unicode字符集,CJK:20925箇漢字 (包含在GBK字符集中)

Unicode字符集,CJK Ext-A: 6582箇漢字 (包含在GB18030字符集中)

Unicode字符集,CJK Ext-B: 42711箇漢字
25
发表于 2009-8-6 20:51:45 | 只看该作者
原帖由 野风 于 2009-8-6 18:20 发表


呵呵,问题是她不知道国外的客户不用winrar……
一方面是操作系统默认的是winzip格式,另一方面,用winzip也是购买大客户使用权的,统一部署,统一升级的;不然我用winzip压缩的文件winrar也不会打不开了(winr ...


版主透露一下嘛,在哪个500强里谋职啊?满足一下偶们的好奇心吧……
26
发表于 2009-8-6 20:55:32 | 只看该作者
原帖由 sanwsw 于 2009-8-6 20:43 发表
引用于:http://www.byscrj.cn/jmm/indexComputing.htm

漢字字符集(字庫)概況  
字體名後面的數字,是指能顯示的GBK + CJK-Ext-A + CJK-Ext-B漢字的箇數。

GB-2312字符集: 6763箇簡體漢字,715箇符號,總 ...


不是一般的厉害,佩服啊……看的头晕……
27
发表于 2009-8-7 18:16:59 | 只看该作者
原帖由 cdrwking 于 2009-8-6 20:51 发表


版主透露一下嘛,在哪个500强里谋职啊?满足一下偶们的好奇心吧……


呵呵,我们离500强本身还差很远,但和许多500强企业有业务往来,为他们提供产品和服务。
这个话题已经偏离主题了……
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2025-12-24 05:54

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表