华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 11585|回复: 4
打印 上一主题 下一主题

■紫光V6.6正式版字符集(集合)选择问答

[复制链接]
跳转到指定楼层
1
发表于 2010-1-2 19:26:04 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
紫光V6.6正式版字符集(集合)选择问答

个人观点,仅供参考。不当之处,欢迎拍砖。

■习用简体字,几乎不用繁体字,选哪个字符集(集合)?
选用“简体”集合。偶尔用到繁体字或一些异体字,输入ucjk转“选超大字符集”。

■习用简体字,也经常用到繁体字、异体字,选哪个字符集最好?
毫无疑问应该选择“超大字符集”。其启动快捷键是ucjk。

■紫光拼音过去GB2312字符集中有无冷僻字?
有!一般人读报看书写字,用字量二、三千字够了,但该字符集收字6700多字。

■紫光输入法恢复GB2312字符集是否仍然出现曾经输入过的冷僻字跑到前边问题?
仍然如此。增加调频功能就是考虑用户输入的方便。当然“快速”档、“慢速”档可以再慢一些或再快一些,但无论怎么改,都会有人骂街。

■“简体”集合只收二、三千字行不行?
谁都不会答应。要是哪个输入法的简体集合只有二、三千个常用字,定被抛弃。

■文字输入中某字找不到咋办?
输入ucjk转“选超大字符集”。若在过去,要切换到GBK字符集寻找,且不一定找到。就是本着能够输出尽可能多汉字的思路,紫光华宇拼音输入法在实现Unicode支持后推出了能够输出全部CJK及其扩展集汉字的紫光V6.6正式版。

■“简体”集合中能否混杂繁体字?
从逻辑上看,既然设了“繁体”集合,“简体”集合就不能再收入真正意义上的“繁体字”。并非你不认识的字就是繁体字,并非CJK扩展集中的冷僻字就是繁体字。

■简体集合中混有极个别繁字体是否影响汉字输入?
理论上有影响,实际上感觉不到。

■有无港台人眼里的简体字,实际上是传统汉字?
这类字很多,如“个”字。像“个”这类字同样要收到“繁体”集合中。从逻辑上区分“简体”集合和“繁体”集合的工作量十分惊人,开发组开始低估了其难度和工作量,但近期明显加强了这项工作,并且还在继续。这项工作若有广大用户的参与和帮助会更早、更快地趋于完善。

■能否既收录尽可能多的汉字、又让用不到的冷僻字沉在下面?
完全能够,这也是开发组目前的努力方向。但因工作量巨大,最新版中部分多音字某个音项下的字频不合理。

■用户能否手工将某字沉底或降频?
完全可以。还可置顶、升频。请输入“uhzgl”以启动“汉字管理”工具。这一全新打造的工具功能十分强大,值得探究。将字符集(集合)汉字字频优化是开发组的事,用户借助该工具只能进行个别的编辑。建议各位积极发帖,将认为字频不恰当的字指出来,帮助开发组做好这项工作。

■“简体”集合收字大增是否影响上屏速度?
理论上会有影响,实际上用户感觉不到。

■只输入一两次的冷僻汉字长期占据前面,有无办法解决?
可以解决。主动避免:或固频(一般人不愿意),或慢速调频(估计还嫌升频太快,嫌不能复位或降位太慢)。被动处理:不予理睬,一段时间不再输入该字,自会沉下去。fengyu29版主准备就此提醒开发组想个更快、更好的办法。

■能否“快速”调频下让冷僻汉字在输入一定次数后才升到前面?
理论上可以。fengyu29版主准备就此提醒开发组想个更快、更好的办法。

■能否“快速”调频下不让冷僻字跑到前面来?
要么不要去玩弄那些极冷僻的汉字。只要输入过,必然跑到上面来。即使改设“慢速”,也会在输入一定次数后升到前面。不动它,它不会自己跑上去。误按误输导致极冷僻字上浮的可能性有,但极少。老去翻箱底干吗?
2
发表于 2010-1-3 19:27:04 | 只看该作者
支持一下!
3
 楼主| 发表于 2010-1-3 19:31:13 | 只看该作者

]《通用规范汉字表》(征求意见稿)背景知识词条

《通用规范汉字表》(征求意见稿)背景知识词条

撰者按:这里所做的词语解释,不是严格意义上的学术定义,而是为了便于非文字学专业的人更好的理解字表。所列举的词语有的未必只限于表述汉字,其他文字也应涵括,但这里皆把它当作汉字的专有术语来解释。
1.字集:按照一定原则选出的一定数量汉字的集合。比如1988年1月,国家语委和国家教委联合发布的《现代汉语常用字表》就是一个一般社会领域最常用汉字的字集。
2.字量:文字的数量,一般指某一特定范围使用到的汉字的数量。比如1988年3月,国家语委和新闻出版署联合发布的《现代汉语通用字表》的字量是7000个。《通用规范汉字表》(征求意见稿)的总字量为8300个。
3.字形:汉字的外形,即单个汉字在空间展现出来的形貌。比如“王”由三横一竖组成。
4.字级:一定数量的汉字集合内部,依据某原则而分出的若干具有层级性关系的汉字集合。比如,1988年1月,国家语委和国家教委联合发布的《现代汉语常用字表》收字3500个,其中又分为两个字级:前面2500个是常用字,后面1000个是次常用字。《通用规范汉字表》(征求意见稿)分为一级字、二级字、三级字3个字级。
5.字用:汉字在书面作品中使用的情况。确定字用依据的是汉字具体的使用职能。记录同一个词的不同字形可算同一个字(比如说“泪”和“涙”是同一个字);记录不同词的相同字形则可算不同的字(比如“体”,古代读bèn,表示愚笨;现代读tǐ,表示身体,二者虽然形体相同但可算两个字)。
6.字样:《通用规范汉字表》(征求意见稿)的相关文件中所使用的“字样”是指汉字的外部样态。凡是汉字中的线条、图素、笔画在数量、交接方式、位相或体式等方面具有差异,也就是不能同比例重合的字,都属于不同的字样。比如说“泪”和“涙”是两个字样,因为它们的外在形态不同,但字用没有区别,因为它们的职能相同,都是记录汉语中“眼泪”这个词。再比如,“户-户-戶-户-户”五个形体也是5个不同的字样,只是其间的差别主要由于字体风格形成。总之,“字样”描述的是每个字的外形。
7.字频:汉字的出现频率,即某个汉字在一定语料中使用(出现)的次数与样本总字数的比率。比如在一个一万字的文本中,“的”字一共出现过415次,那么“的”字在该文本中的字频便是4.15%(415÷10000×100%=4.15%)。
8.字序:汉字在辞书和各种索引中的排列顺序。汉字的字序主要有音序和形序。比如“天、地、人”三字,按形序(笔画序)排列应该是“人(2画)、天(4画)、地(6画)”,按音序排列应该是“地(di)、人(ren)、天(tian)”。几个字笔画相同时,则依照笔顺的先后顺序排列(笔顺的先后顺序是横1、竖2、撇3、点4、折5),如“文、王、队、日、午”五个字全是四画,起笔分别为点、横、折、竖、撇,依照笔顺则应排列为“王、日、午、文、队”。
9.类推简化:某个字形简化了,当这个字作为其他字的构件时如果也可以跟着简化,就形成类推简化。《简化字总表》规定其第二表中的132个简化字和12个简化偏旁,可以类推简化。比如“嚴、龍”简作“严、龙”,“儼、壟”可以类推简化作“俨、垄”;“車”简作“车”,则以“車”为偏旁的“軌、軍、庫、載”可以类推简化为“轨、军、库、载”。
10.有限类推:类推简化限定在一定范围内。《通用规范汉字表》(征求意见稿)实行的就是有限类推,即凡收进字表的字如其字形是繁体,都依据《简化字总表》规定的原则而类推简化。而字表以外的字,不管其形体是否含有已经简化了的繁体字形,都不再类推简化。比如“驦、驌、鸘、鷫”四字收进了字表,依据类推简化原则,将们分别简化为“骦、骕、鹴、鹔”。与其相对的说法是“无限类推”,也就是某个字不管其现在是否使用,只要其形体含有已经简化了的繁体字形,都类推简化。比如“驡”现在基本不用,但因为“龍”简化作“龙”、“馬”简作“马”,于是把“驡”类推简作“龙+马”。无限类推学术界不赞成,主管部门也已明确否定。
11.异体字:“异体字”是与“正体字”相对的概念。音义和使用功能相同而字形不同于正体字的汉字。例如,“峰-峯”、“凳-櫈”、“朵-朶”、“泪-涙”等字组中,后者皆为前者的异体字。严格意义上的异体字,其职能不由正体字承担,是汉字的冗余,给记忆带来负担,所以有必要限制其使用。
12.宋体字形:宋代刻版印书通行的字体。结构方正匀称,横细直粗,便于刻版,阅读醒目,是16世纪以来汉字的主要印刷体。当前出版物上的常用字体,除宋体外(如:小),还有仿宋体(小)、楷体(小)、黑体(小)等。
13.《第一批异体字整理表》:1955年12月22日,文化部和中国文字改革委员会联合发布的新中国第一个汉字规范,1956年2月1日起在全国实施。该表内列810组字,每组最少2个字,最多6个字,共1865字。根据从简从俗的原则,从中选出810个作为正体,淘汰了1055个异体字。比如“橹—艪艣樐”为一组具有正字与异体字关系的字,该表将“橹”定为正字,“艪艣樐”是淘汰的异体字。该表发布后,不仅精简了汉字的字数,而且有效地遏制了汉字使用中的字体混乱现象。
14.《印刷通用汉字字形表》:1955年,中国文字改革委员会提出进行汉字字模标准化工作,以统一印刷字体和手写正楷体的笔画结构,精简偏旁部件的种类,确定汉字的标准字形,并把它作为书写的规范和设计印刷、打字字模的标准,以利学习和使用。1956年9月,标准字形研究组编成了《标准字形方案(草案)》,1957年对该草案进行修改并更名为《汉字字形整理方案(草案)》,1959年初步定稿;1960年5月,在前表的基础上又编成《通用汉字字形表草案》;1962年3月,文化部决定把整理字形的工作确定在印刷通用汉字的范围内,并改名为《印刷通用汉字字形表》。
整理字形的原则是:①宋体楷化;②字形结构和笔势尽量服从横写的需要;③折笔尽量改为直笔;④连结个别笔画结构;⑤精简偏旁的数量;⑥按读音分化原有部件。1964年5月,字形整理组拟出《印刷通用汉字字形表》,1965年发布实施。收印刷通用汉字6196个,并给每个汉字规定了笔画数、结构和笔顺。经过对字形的调整和美化,进一步取得了宋体字笔形的一致,使字形更趋于规律性、系统性。
15.《简化字总表》:1956年1月,国务院公布《汉字简化方案》;1964年3月,中国文字改革委员会、文化部、教育部联合发布《关于简化字的联合通知》,《总表》分成三个表。第一表所收的是352个不作偏旁用的简化字。这些字的繁体一般都不用作别的字的偏旁。个别能作别的字的偏旁,也不依简化字简化。如“習”简化作“习”,但“褶”不简化作“衤+习”。第二表所收的是132个可作偏旁用的简化字和14个简化偏旁。第三表所收的是应用第二表的简化字和简化偏旁作为偏旁得出来的简化字。1986年10月,国家语委经国务院批准重新发布了《简化字总表》,并作了个别调整。调整后的《总表》,实收简化字2235个。
16.《现代汉语常用字表》:1988年1月26日,国家语委、国家教委联合发布,目的是为了适应语文教学及其他方面的需要。字表分常用字(2500字)和次常用字(1000字)两个部分。选字原则是:①根据汉字的使用频率,选取使用频率高的字;②在使用频率相同的情况下,选取学科分布广、使用度高的字;③根据汉字的构字能力和构词能力,选取构字能力和构词能力强的字;④根据汉字的实际使用(语义功能)情况斟酌取舍。其后,国家教委颁布的基础教育教学大纲规定基础教育阶段的识字量为3500字,完全等同于本字表。
17.《现代汉语通用字表》:国家语委、新闻出版署1988年3月25日发布。共收7000字,包括《现代汉语常用字表》的3500字。本表的制订,主要依据1965年颁布的《印刷通用汉字字形表》。根据实际需要,删去《印刷通用汉字字形表》中的50字,增收854字。同时,本表依据《印刷通用汉字字形表》确定的字形标准,规定了汉字的字形结构、笔画数和笔顺。其后,印刷通用汉字字形即以此表为准。
18.语料库:应用计算机技术存储语言材料的总汇。语料范围可以是综合的,也可以是专项的,如国家语委“现代汉语平衡语料库”(收1919-2002年的语料9100万汉字)。语料库的容量大小和编制体例可根据需要设计,内容也可以及时更新补充。
19.《GB13000.1字符集汉字字序(笔画序)规范》:GB13000.1字符集是指国家标准汉字编码字符集,共20902个汉字。《GB13000.1字符集汉字字序(笔画序)规范》由国家语委1999年10月1日发布、2000年1月1日实施,编号为GF3003-1999。它是按笔画排序的汉字字序规范,主要用于汉字的信息处理、排序检索、辞书编纂等方面。
20.历史通用字形:即在历史上已经通行的汉字。一般指《康熙字典》之后、特别是《中华大字典》(1915年)之后的字形。使用历史通用字形的原则:字形要有历史上使用过的依据;有多个字形可以采用时,要尽量选取通行度高、易于识别的字形。这个概念主要针对这种情况:如果文章中需要使用非常生僻的字,要使用历史上已经通行的字形,不要生造新字或乱改字形(包括类推简化),以免增加汉字的繁复程度。比如“壣”“蘹”未收入字表,如果写作时确需使用,则不能将其简化为“土+联”“艹+怀”,也不能写成其他新造形体,而要使用古书中所使用的原字形。
4
 楼主| 发表于 2010-1-3 19:41:44 | 只看该作者
  15.《简化字总表》:1956年1月,国务院公布《汉字简化方案》;1964年3月,中国文字改革委员会、文化部、教育部联合发布《关于简化字的联合通知》,《总表》分成三个表。第一表所收的是352个不作偏旁用的简化字。这些字的繁体一般都不用作别的字的偏旁。个别能作别的字的偏旁,也不依简化字简化。如“習”简化作“习”,但“褶”不简化作“衤+习”。第二表所收的是132个可作偏旁用的简化字和14个简化偏旁。第三表所收的是应用第二表的简化字和简化偏旁作为偏旁得出来的简化字。1986年10月,国家语委经国务院批准重新发布了《简化字总表》,并作了个别调整。调整后的《总表》,实收简化字2235个。

  理论上,有2235个简化字,但实际上其中相当一部分简化字是历史上本亦有之,所以现行简体集合和繁体集合的差别是这些简化字和它对应的繁体字、异体字之差别。由于简繁不对应,致使这种区分工作很费时间,测试版中间杂极个别繁体字不足为奇。就是正式版,估计还有个别繁体字。
  GBK字符集的20000多字,现行简体集合、繁体集合字数剧增,多是CJK扩展集的汉字。这部分汉字不能简单地认作是简化字或者繁体字,应该具体分析。但不管怎样,将这部分汉字沉在底部,再合理设定该集合字频,对普通用户的汉字输出没有任何影响。至于偶尔输入或误输生僻字,且长期占据前面位置的问题,不是现在新版独有,过去使用GB2312字符集年代、选用GBK字符集时候都有这个问题!
  感谢开发组的辛勤劳动,感谢孙海峰博士制作的超大字符集支持包,因为他们的辛勤劳动和无私奉献,让我们中国人无法输出古老汉字的几率降到最低。
5
发表于 2010-1-10 12:43:06 | 只看该作者
好帖要的!
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2025-12-26 05:55

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表