|
|
紫光华宇拼音输入法V6.1在整句输入能力方面突飞猛进,根据客观、海量测试,在3G(ZG/SG/GG)中首屈一指,测试结果报告详见“用数据说话,整句输入空前跃进”一帖。
本帖之后的连续若干跟帖,是为如题所示的用户专门打造(包括本人),一般来说,这类用户有些基本功,具体实施方案如下说明,应该看得明白,且具有操作能力。
组句式输入要求的数据资料文件位于以下文件夹(子目录)中,文件名是:bigram.dat
"%ALLUSERSPROFILE%\Application Data\unispim6\wordlib"
上面的ALLUSERSPROFILE是系统环境变量,如果系统安装在C盘,则该目录实际如下所示:
"C:\Documents and Settings\All Users\Application Data\unispim6\wordlib"
以更加全面(当然更加庞大)的数据资料文件来替换这个文件,就可以享用更好的整句输入符合度。具体方式就是根据个人喜好和容忍程度,下载相应档次的资料文件,打开资源管理器,进行文件的复制和粘贴,覆盖当前安装的bigram.dat之前,最好做个备份,以便不满意的时候进行恢复。
注意#1:以上操作须在没有打开任何应用程序使用紫光华宇拼音输入法V6.1进行文字输入的情况下实施,如果输入过,即使关闭了输入法,而没有关闭应用程序,也不行,最简单的方法是注销后重新登录,不干别的,先来营造自己喜欢的环境。
注意#2:使用大的数据资料文件,输入法加载时间会长一些,在切换到V6.1后,最好等几秒钟再开始实际的输入活动。
以下跟帖中的附件们,将分别是三种规模(或称档次)需要的数据资料文件,命名为bestData/wellData/goodData,本帖下段的列表是分别采用这四种(加上发布包中的方案)资料文件,进行组句的结果报告。测试句子数目为一万,文字风格是网络大杂烩,词句是从以前的86xxx句子中(海量语料万分之一概率抽取),再次随机抽取(按照8.6分之一的概率)出来10001句,人工删除一句凑一整数得到,其客观性是有一定保障的。
数据资料文件大小 组句符合率 压缩分卷数目 压缩后存储空间
80,728,064≈80M 72.01% 9 44,756,502≈45M
51,519,488≈50M 71.47% 8 31,656,852≈32M
25,743,360≈25M 69.57% 5 17,847,605≈18M
12,451,840≈12M 66.92%
最低档次的准确率(安装包中的方案,为追求安装包不要过大而限制),也高于另外2G约2~3个百分点,对于新崛起的、传说中很不错的QQ,和传统的MS,也将择日继续测试,力争使得判断来自统计数据,而非停留在越来越不那么可靠的感觉上。
之所以发在这个版块,原因有二:其一是本版块的用户的操作能力更有保障一些,其二是限于网络资源不足,难以支撑更大的下载流量,如有仁人达者能够提供分流,则可以在“输入法使用”版块开帖共享,严重感谢!
转自:http://bbs.unispim.com/viewthread.php?tid=1302&pid=11530&page=1&extra=page%3D1#pid11530
分流bestData:http://www.namipan.com/d/bestData.rar/8e0b258c8608ec992f886cdcd1b76f5a831bac402552a402
http://mail.foxmail.com/cgi-bin/exs_download?uin=1012204&svrid=1&fid=82a1854a33ed9c11075c1d05b21f3cbd3d8e069fd733b486&code=cfa20ff4
http://mail.foxmail.com/cgi-bin/exs_download?uin=1012204&svrid=1&fid=82a1854a33ed9c114a9e58b7c9db7a5ae28d62e91745bc76&code=07e78efe
分流wellData:http://www.namipan.com/d/wellDat ... e23f00a9aed5c50df01
http://mail.foxmail.com/cgi-bin/exs_download?uin=1012204&svrid=1&fid=82a1854a33ed9c114a9e58b7c9db7a5ae28d62e91745bc76&code=07e78efe
最后一个gooddata分流到QQ中转站了,纳米盘无法使用。只有7天保留注意!http://mail.foxmail.com/cgi-bin/exs_download?uin=1012204&svrid=4&fid=c249b73a895ad5c08a16b1a2a576b65db71276f3e37aa654&code=2b082bba
方案实体传输完毕,测试集合示例本次上传三个文件,分别是bestWork.txt、wellWork.txt、goodWork.txt,分别代表:
1.前三个档次无法组对,由bestData搞定的例句
2.前两个档次无法组对,由wellData搞定的例句
3.发布版无法组对,由goodData搞定的例句
例句中也有不怎么样的句子,不必细究,统计数据对认知和决策的指导意义,是建立在大量的累计效果之上的。
想一探究竟的老手们,可以试试。
CheckExamples.rar
(11.57 KB, 下载次数: 839)
至此3种全部上传到QQ中转站完毕,7天时限,喜欢的快点下,从今天开始算起!
[ 本帖最后由 michsun 于 2008-1-30 21:43 编辑 ] |
|