紫光华宇拼音输入法V6.1在整句输入能力方面突飞猛进,根据客观、海量测试,在3G(ZG/SG/GG)中首屈一指,测试结果报告详见“用数据说话,整句输入空前跃进”一帖。
本帖之后的连续若干跟帖,是为如题所示的用户专门打造(包括本人),一般来说,这类用户有些基本功,具体实施方案如下说明,应该看得明白,且具有操作能力。
组句式输入要求的数据资料文件位于以下文件夹(子目录)中,文件名是:bigram.dat
"%ALLUSERSPROFILE%\Application Data\unispim6\wordlib"
上面的ALLUSERSPROFILE是系统环境变量,如果系统安装在C盘,则该目录实际如下所示:
"C:\Documents and Settings\All Users\Application Data\unispim6\wordlib"
以更加全面(当然更加庞大)的数据资料文件来替换这个文件,就可以享用更好的整句输入符合度。具体方式就是根据个人喜好和容忍程度,下载相应档次的资料文件,打开资源管理器,进行文件的复制和粘贴,覆盖当前安装的bigram.dat之前,最好做个备份,以便不满意的时候进行恢复。
注意#1:以上操作须在没有打开任何应用程序使用紫光华宇拼音输入法V6.1进行文字输入的情况下实施,如果输入过,即使关闭了输入法,而没有关闭应用程序,也不行,最简单的方法是注销后重新登录,不干别的,先来营造自己喜欢的环境。
注意#2:使用大的数据资料文件,输入法加载时间会长一些,在切换到V6.1后,最好等几秒钟再开始实际的输入活动。
以下跟帖中的附件们,将分别是三种规模(或称档次)需要的数据资料文件,命名为bestData/wellData/goodData,本帖下段的列表是分别采用这四种(加上发布包中的方案)资料文件,进行组句的结果报告。测试句子数目为一万,文字风格是网络大杂烩,词句是从以前的86xxx句子中(海量语料万分之一概率抽取),再次随机抽取(按照8.6分之一的概率)出来10001句,人工删除一句凑一整数得到,其客观性是有一定保障的。
数据资料文件大小 组句符合率 压缩分卷数目 压缩后存储空间
80,728,064≈80M 72.01% 9 44,756,502≈45M
51,519,488≈50M 71.47% 8 31,656,852≈32M
25,743,360≈25M 69.57% 5 17,847,605≈18M
12,451,840≈12M 66.92%
最低档次的准确率(安装包中的方案,为追求安装包不要过大而限制),也高于另外2G约2~3个百分点,对于新崛起的、传说中很不错的QQ,和传统的MS,也将择日继续测试,力争使得判断来自统计数据,而非停留在越来越不那么可靠的感觉上。
之所以发在这个版块,原因有二:其一是本版块的用户的操作能力更有保障一些,其二是限于网络资源不足,难以支撑更大的下载流量,如有仁人达者能够提供分流,则可以在“输入法使用”版块开帖共享,严重感谢!
[ 本帖最后由 ZXD4G 于 2008-1-30 18:29 编辑 ] |