追求整句准确率＋机器性能不俗＋不在乎几十兆存储空间的——请进！

ZXD4G · 发表于 2008-1-30 18:18:43

紫光华宇拼音输入法V6.1在整句输入能力方面突飞猛进，根据客观、海量测试，在3G(ZG/SG/GG)中首屈一指，测试结果报告详见“用数据说话，整句输入空前跃进”一帖。

本帖之后的连续若干跟帖，是为如题所示的用户专门打造(包括本人)，一般来说，这类用户有些基本功，具体实施方案如下说明，应该看得明白，且具有操作能力。

组句式输入要求的数据资料文件位于以下文件夹(子目录)中，文件名是：bigram.dat
"%ALLUSERSPROFILE%\Application Data\unispim6\wordlib"
上面的ALLUSERSPROFILE是系统环境变量，如果系统安装在C盘，则该目录实际如下所示：
"C:\Documents and Settings\All Users\Application Data\unispim6\wordlib"

以更加全面(当然更加庞大)的数据资料文件来替换这个文件，就可以享用更好的整句输入符合度。具体方式就是根据个人喜好和容忍程度，下载相应档次的资料文件，打开资源管理器，进行文件的复制和粘贴，覆盖当前安装的bigram.dat之前，最好做个备份，以便不满意的时候进行恢复。
注意#1：以上操作须在没有打开任何应用程序使用紫光华宇拼音输入法V6.1进行文字输入的情况下实施，如果输入过，即使关闭了输入法，而没有关闭应用程序，也不行，最简单的方法是注销后重新登录，不干别的，先来营造自己喜欢的环境。
注意#2：使用大的数据资料文件，输入法加载时间会长一些，在切换到V6.1后，最好等几秒钟再开始实际的输入活动。

以下跟帖中的附件们，将分别是三种规模(或称档次)需要的数据资料文件，命名为bestData/wellData/goodData，本帖下段的列表是分别采用这四种(加上发布包中的方案)资料文件，进行组句的结果报告。测试句子数目为一万，文字风格是网络大杂烩，词句是从以前的86xxx句子中(海量语料万分之一概率抽取)，再次随机抽取(按照8.6分之一的概率)出来10001句，人工删除一句凑一整数得到，其客观性是有一定保障的。

数据资料文件大小  组句符合率压缩分卷数目压缩后存储空间
80,728,064≈80M    72.01%          9             44,756,502≈45M
51,519,488≈50M    71.47%          8             31,656,852≈32M
25,743,360≈25M    69.57%          5             17,847,605≈18M
12,451,840≈12M    66.92%

最低档次的准确率(安装包中的方案，为追求安装包不要过大而限制)，也高于另外2G约2～3个百分点，对于新崛起的、传说中很不错的QQ，和传统的MS，也将择日继续测试，力争使得判断来自统计数据，而非停留在越来越不那么可靠的感觉上。

之所以发在这个版块，原因有二：其一是本版块的用户的操作能力更有保障一些，其二是限于网络资源不足，难以支撑更大的下载流量，如有仁人达者能够提供分流，则可以在“输入法使用”版块开帖共享，严重感谢！

[ 本帖最后由 ZXD4G 于 2008-1-30 18:29 编辑 ]

ZXD4G · 发表于 2008-1-30 18:24:29

ZXD4G · 发表于 2008-1-30 18:29:40

ZXD4G · 发表于 2008-1-30 18:34:10

ZXD4G · 发表于 2008-1-30 18:38:33

xml00 · 发表于 2008-1-30 18:39:30

俺这也是沙发。首先下载试用。
哦，不好意思，楼主还没发完。
其实可以集中在一个帖子中。

原帖由 ZXD4G 于 2008-1-30 18:44 发表
文中如有说明不够详细的，也请先生以一个用户的体会来辅助解说一二。
论坛上传附件有限制，不得不如此麻烦，也许是土了，请见谅。

我已经打乱次序了，暂时不跟贴了。

[ 本帖最后由 xml00 于 2008-1-30 18:56 编辑 ]

ZXD4G · 发表于 2008-1-30 18:43:20

ZXD4G · 发表于 2008-1-30 18:44:16

文中如有说明不够详细的，也请先生以一个用户的体会来辅助解说一二。
论坛上传附件有限制，不得不如此麻烦，也许是土了，请见谅。

[ 本帖最后由 ZXD4G 于 2008-1-30 18:48 编辑 ]

ZXD4G · 发表于 2008-1-30 18:48:22

ZXD4G · 发表于 2008-1-30 18:54:11

michsun · 发表于 2008-1-30 18:54:34

还没传齐吧，等9个都出来了！

kingdick · 发表于 2008-1-30 18:55:54

动作挺快的。如此发布一个软件，还是第一次见到～～

ZXD4G · 发表于 2008-1-30 18:58:39

见笑了，K版，准确地说：这些东西不是“软件”，而是“解决方案”，两者的差异见仁见智吧。

真拼音佳佳 · 发表于 2008-1-30 19:00:28

还需要补充一条:不在乎打字词的人比你快得多的速度.
整句做到最好,也只是最好的整句,而不是最好的输入法.

ZXD4G · 发表于 2008-1-30 19:00:35

ZXD4G · 发表于 2008-1-30 19:05:55

ZXD4G · 发表于 2008-1-30 19:07:49

原帖由 真拼音佳佳 于 2008-1-30 19:00 发表
还需要补充一条:不在乎打字词的人比你快得多的速度.
整句做到最好,也只是最好的整句,而不是最好的输入法.

逆耳吗？真逆耳。有理吗？挺有理。
让我如何打动你——最好的整句要追求，最好的输入法也要追求，前者在根本上并不妨碍后者的进步——你不喜欢整句输入，只偏心速度，不代表所有人都同此好，咱就追求一些随意——希望继续保持关注。

ZXD4G · 发表于 2008-1-30 19:12:19

xml00 · 发表于 2008-1-30 19:15:15

智能组词也不光是对整句输入有好处，对于字词类输入法也有一定好处。遇到词库中没有的词时，智能组词正确率较高，就可以少一些造词。字词类输入法不妨偏重于短词的组词正确率研究。

ZXD4G · 发表于 2008-1-30 19:18:09

ZXD4G · 发表于 2008-1-30 19:24:34

ZXD4G · 发表于 2008-1-30 19:29:59

michsun · 发表于 2008-1-30 19:31:58

已经分流bestData了，下载：http://www.namipan.com/d/bestDat ... f5a831bac402552a402

42.2MB！

[ 本帖最后由 michsun 于 2008-1-30 19:33 编辑 ]

ZXD4G · 发表于 2008-1-30 19:35:47

ZXD4G · 发表于 2008-1-30 19:39:56

感谢michsun

ZXD4G · 发表于 2008-1-30 19:40:55

michsun · 发表于 2008-1-30 19:41:55

原帖由 ZXD4G 于 2008-1-30 19:39 发表
感谢michsun

不用客气，等你其他的！

ZXD4G · 发表于 2008-1-30 19:46:49

ZXD4G · 发表于 2008-1-30 19:50:49

michsun · 发表于 2008-1-30 19:56:56

期待最后5个包

！

		自动登录	找回密码
密码			注册

追求整句准确率＋机器性能不俗＋不在乎几十兆存储空间的——请进！

bestData 1/9

bestData 2/9

bestData 3/9

bestData 4/9

bestData 5/9

bestData 6/9

bestData 7/9

bestData 8/9

bestData 9/9

wellData 1/8

wellData 2/8

wellData 3/8

wellData 4/8

wellData 5/8

wellData 6/8

wellData 7/8

wellData 8/8