华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 16567|回复: 9
打印 上一主题 下一主题

紫光辅助码的开发

[复制链接]
跳转到指定楼层
1
发表于 2008-2-23 14:58:27 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
紫光辅助码的开发

希望可以开发辅助码的功能,这个功能对于拼音的普及太关键了,不然以后人家的

拼音输入法可以的事情,紫光可以,人家不行的,紫光也不行,那就体现不出紫光拼音的

强大的地方了.
2
发表于 2008-2-23 18:34:15 | 只看该作者
辅助码在下个版本中将会得到加强
3
 楼主| 发表于 2008-2-24 12:05:11 | 只看该作者
能不能说说下一个版本的辅助码是什么方式的。
4
发表于 2008-2-25 14:11:13 | 只看该作者
现在还不能确定,在另一帖子中已经表示过。6.1没有引入,是由于其它主要精力另有所投,下一个版本要加这项功能,但首先是要作分析,不少行家给出了建议,我们的做法是参考和评价这些方案,以及自己想到的一些点子的试验,然后形成设计,预计花两周左右时间来分析什么方案比较好,如果有多种方案优劣难分,有可能支持多种。
5
发表于 2008-2-25 14:19:47 | 只看该作者
如果有多种方案优劣难分,还不如弄成平台式的呢。

不过,辅助码的中心就是效率,在效率的基础上再在易用性上下功夫。这点一定要把握住,否则只能弄出一种谁用着都不好用的东西。
6
发表于 2008-2-26 15:07:16 | 只看该作者
双双码的键位布局
如下是“双双码”形码新的键位布局图。
双双码的意思是,双拼+双笔。
双笔形码采用“两笔一键”的编码方法,此类形码以“二笔”为代表。
双双码和二笔的区别是:
键位布局不同,5个区的排布和五笔类似,每个区的键位排布是从中间到两边。
只用了26个键位。
二笔系列的编码以音形码为代表,提取字根时,主要是根据“音节首字母”来统计数据;双双码主要是作为双拼的辅助码(亦可作为全拼的辅助码),提取字根时,主要是根据“完整的音节”对重码分离的情况来考虑的。

双双码图示.png (7.57 KB, 下载次数: 184)

双双码图示.png
7
发表于 2008-2-26 15:09:29 | 只看该作者
未提取字根时,首位形码的分布字数见下图。
可以看出,f、n两个码位所分布的字数很多;f码位主要有“艹、木、扌、土”等高频字根,n码位主要有“口、虫、山、目、日”等高频字。
此外,o键上有“氵、忄、宀”等,t键上有“釒、?、钅、禾”等。

未优化的键位数据.PNG (10.36 KB, 下载次数: 177)

未优化的键位数据.PNG
8
发表于 2008-2-26 15:10:09 | 只看该作者
过多的高频字根集中在某几个码位上,对于重码的分离是不利的,因此要将这些字根中的一部分提取出来,以改善重码分离情况。
1楼的图示中有8个字根被提取,其中,中排和下排键位上有6个字根,他们的编码就是他们的声母,很容易记忆;上排有两个字根“E 日”和“U 扌”是需要死记的。
事实上,“日”和“立”都不是最高频的字根,这是根据拼音音节对重码的分离情况而确定的。
键位排布时,所统计的字集范围是4576个常用字。这些字是从不同的字频表中根据排序分别提取前3500个字所得到的,基本涵盖了现代汉语和古代汉语中的常用字。
下面的图解是提取字根后首位形码的字数分布情况。

双双码的键位数据.PNG (11.23 KB, 下载次数: 153)

双双码的键位数据.PNG
9
发表于 2008-2-26 15:11:05 | 只看该作者
每个单字只用3个编码,重码情况如何?
在这4576个常用字范围内,最高重码为8个;其中6个以上的重码只有29组。
这意味着,3码空间若让位给单字,输入常用字时根本就不用翻页;即便是设为5重码,翻页的次数也极少。
这一统计结果为直接辅助码的应用提供了有力的支持。
我目前尚未对第二位形码进行优化,直接和优化后的首码结合,全码编码为4码,3重码以上的编码只有19组,其中4组是4重码(最高的重码)。

GBK范围内的统计结果是,最高的重码数为12个(2组),9重码以上的只有7组。这意味着,绝大多数的GBK汉字也不需要翻页就能输入。
10
发表于 2008-2-26 15:11:39 | 只看该作者
毫无疑问,这是一个极其简单的辅助码方案,花上20分钟的时间,应该能够学会。

双双码的单字编码规则
形码编码规则分为“双笔”和“字根”两类。
此处以徐氏双拼为例,进行编码示范说明。
㈠双笔编码规则
这里的“双笔”特指无字根时的情况。
单字全码码长为4,前两位为“双拼”音码,后两位为“双笔”形码。
音码的首码为声母,尾码为韵母;形码的首码为前两笔,尾码为后两笔。
⑴主要规则:单字=双拼+前两笔+三四笔
方:双拼FR+点横Y+折撇C,编码为FRYC。FR为双拼音码,YC为双笔形码。
冰:双拼BJ+点提Y+竖折N,编码为BJYN。
⑵零笔规则:尾码零笔时用第三位编码代替。
厂:双拼AR+横撇D+D(因末两笔缺失,故用第三位编码代替)。编码为ARDD。
力:双拼LI+折撇C+C。编码为LICC。
⑶单笔规则:单笔以对应双笔代替。
万:双拼WD+横折A+撇E(尾码为单笔“撇”,用撇撇E代替)。编码为WDAE。
乙:双拼YI+折Z+Z(首位形码为单笔“折”,尾码为零笔,均以对应双笔折折Z代替)。编码为YIZZ。
㈡字根编码规则
形声字一般分为两部分,形码一般取各部分的前两笔编码。如:
灶:双拼zc,形码if,全码为zcif。
字根按类似的方法取码:
站:双拼ud,形码lh。
拭:双拼ii,形码ug。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2025-12-25 07:21

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表