华宇拼音输入法论坛
标题:
紫光汉字字符集(集合)的选择
[打印本页]
作者:
sanwsw
时间:
2009-12-23 11:37
标题:
紫光汉字字符集(集合)的选择
紫光汉字字符集(集合)的选择
紫光汉字字符集(集合)的设置和选择,近来网友意见分歧,各有道理。我也说点看法。
1.默认字符集选择哪个?
紫光华宇拼音输入法服务对象,必然是使用简化字、学用普通话的大陆人士为主体,默认字符集必须是“简体”集合。
2.“简体”集合多大为好?
GB2312,收录汉字6763,应能满足绝大部分人日常汉字输入之需。GB2312是最早也是最成功的一套编码标准,一级汉字3755个按拼音排序,二级汉字3000多个按字型排序。在当时,一级汉字就已经覆盖了九成以上的通常需要,加上二级汉字就基本满足人们日常需要。随着计算机应用的普及,一些偏僻的人名、地名及古籍用字遇到了麻烦,例如“镕”、“〇”就不在GB2312标准中。信息标准化委员会就对原标准进行扩充,把常用繁体字(实际上就是来源于台湾的BIG5标准)填充到了原来的编码标准中留下空白码段,使汉字个数扩到2万多个(GBK)。但是,身份证二代证办理中暴露出来的问题表明,GBK字符集根本无法应对人名、地名用字需求。在不能无限类推简化汉字的限制下,既要满足外文操作系统下使用紫光华宇拼音输入法需要,又能解决有关行业、部分人群输出冷僻汉字需要,实现Unicode支持就成为必然选择。现行“简体”集合是全字集除去纯粹的繁体字以外的汉字集合,就能满足各方需求,是个很好折中方案。由于汉字量迅速扩大,科学确定字频难度增加,需要开发组中有人耐心工作,人工优化,相信加以时间,应可拿出不错的简体集合。
3.要不要超大字符集?
如果问要不要现在的超大字符集(CJK以及Ext-A、Ext-B、Ext-C),一般人难以回答,那么要不要GBK字符集呢?这在紫光支持Unicode前,需要支持GBK字符集是个毫无悬念的问题,事实上,现在各大拼音输入法都支持GBK字符集。GBK是包括GB2312和BIG5(繁体字标准)的一个超集,中国标准化组织搞出这个标准是希望东亚使用汉字的地区都能采用这个标准,但这个目的在今天来看并没有达到,BIG5编码标准和GB2312一样仍然在港澳台及海外被广泛使用,GBK被冷落了。现在升级到超大字符集,只不过收集的冷僻字甚至罕见字、死字增加了,但只要字频处理好,不会影响一般人单字输出,又能满足部分行业、部分人群的冷僻字输出,因此,“超大字符集”必须设立。
4.简体集合中疑似繁体字
紫光华宇拼音输入法字符集选项选择“简体”者,在汉字单字输入中会发现个别像“鍗”、“鐗”一类疑似繁体字,觉得很烦,认为处理失当,认为其后的汉字应该排在前面。这里既有错觉,又有人工干预的因素。如“葡萄”两字,计算机统计,两字字频应该不低,个人认为应降低这两字字频,不知这种情况紫光华宇拼音输入法中有没有、多不多。另外,好多科技文章(如化学元素)、姓名地名用字中的疑似繁体字,不能算是繁体字(因为没有类推简化字!!)。开发组对简体集合中这部分汉字字频的后期手工优化中,尽可能细致一些,字频处理准确一些,给人突兀、失当的感觉会少些。
[
本帖最后由 sanwsw 于 2009-12-23 16:09 编辑
]
欢迎光临 华宇拼音输入法论坛 (http://bbs.pinyin.thunisoft.com/)
Powered by Discuz! X3.2