华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 22271|回复: 14
打印 上一主题 下一主题

转贴:追求整句准确率+机器性能不俗+不在乎几十兆存储空间的——请进!

[复制链接]
跳转到指定楼层
1
发表于 2008-1-30 19:31:22 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
紫光华宇拼音输入法V6.1在整句输入能力方面突飞猛进,根据客观、海量测试,在3G(ZG/SG/GG)中首屈一指,测试结果报告详见“用数据说话,整句输入空前跃进”一帖。

本帖之后的连续若干跟帖,是为如题所示的用户专门打造(包括本人),一般来说,这类用户有些基本功,具体实施方案如下说明,应该看得明白,且具有操作能力。

组句式输入要求的数据资料文件位于以下文件夹(子目录)中,文件名是:bigram.dat
"%ALLUSERSPROFILE%\Application Data\unispim6\wordlib"
上面的ALLUSERSPROFILE是系统环境变量,如果系统安装在C盘,则该目录实际如下所示:
"C:\Documents and Settings\All Users\Application Data\unispim6\wordlib"

以更加全面(当然更加庞大)的数据资料文件来替换这个文件,就可以享用更好的整句输入符合度。具体方式就是根据个人喜好和容忍程度,下载相应档次的资料文件,打开资源管理器,进行文件的复制和粘贴,覆盖当前安装的bigram.dat之前,最好做个备份,以便不满意的时候进行恢复。
注意#1:以上操作须在没有打开任何应用程序使用紫光华宇拼音输入法V6.1进行文字输入的情况下实施,如果输入过,即使关闭了输入法,而没有关闭应用程序,也不行,最简单的方法是注销后重新登录,不干别的,先来营造自己喜欢的环境。
注意#2:使用大的数据资料文件,输入法加载时间会长一些,在切换到V6.1后,最好等几秒钟再开始实际的输入活动。

以下跟帖中的附件们,将分别是三种规模(或称档次)需要的数据资料文件,命名为bestData/wellData/goodData,本帖下段的列表是分别采用这四种(加上发布包中的方案)资料文件,进行组句的结果报告。测试句子数目为一万,文字风格是网络大杂烩,词句是从以前的86xxx句子中(海量语料万分之一概率抽取),再次随机抽取(按照8.6分之一的概率)出来10001句,人工删除一句凑一整数得到,其客观性是有一定保障的。

数据资料文件大小  组句符合率 压缩分卷数目    压缩后存储空间
80,728,064≈80M     72.01%            9               44,756,502≈45M
51,519,488≈50M     71.47%            8               31,656,852≈32M
25,743,360≈25M     69.57%            5               17,847,605≈18M
12,451,840≈12M     66.92%

最低档次的准确率(安装包中的方案,为追求安装包不要过大而限制),也高于另外2G约2~3个百分点,对于新崛起的、传说中很不错的QQ,和传统的MS,也将择日继续测试,力争使得判断来自统计数据,而非停留在越来越不那么可靠的感觉上。

之所以发在这个版块,原因有二:其一是本版块的用户的操作能力更有保障一些,其二是限于网络资源不足,难以支撑更大的下载流量,如有仁人达者能够提供分流,则可以在“输入法使用”版块开帖共享,严重感谢!

转自:http://bbs.unispim.com/viewthread.php?tid=1302&pid=11530&page=1&extra=page%3D1#pid11530
分流bestData:http://www.namipan.com/d/bestData.rar/8e0b258c8608ec992f886cdcd1b76f5a831bac402552a402
http://mail.foxmail.com/cgi-bin/exs_download?uin=1012204&svrid=1&fid=82a1854a33ed9c11075c1d05b21f3cbd3d8e069fd733b486&code=cfa20ff4
http://mail.foxmail.com/cgi-bin/exs_download?uin=1012204&svrid=1&fid=82a1854a33ed9c114a9e58b7c9db7a5ae28d62e91745bc76&code=07e78efe
分流wellData:http://www.namipan.com/d/wellDat ... e23f00a9aed5c50df01
http://mail.foxmail.com/cgi-bin/exs_download?uin=1012204&svrid=1&fid=82a1854a33ed9c114a9e58b7c9db7a5ae28d62e91745bc76&code=07e78efe
最后一个gooddata分流到QQ中转站了,纳米盘无法使用。只有7天保留注意!http://mail.foxmail.com/cgi-bin/exs_download?uin=1012204&svrid=4&fid=c249b73a895ad5c08a16b1a2a576b65db71276f3e37aa654&code=2b082bba



方案实体传输完毕,测试集合示例本次上传三个文件,分别是bestWork.txt、wellWork.txt、goodWork.txt,分别代表:
1.前三个档次无法组对,由bestData搞定的例句
2.前两个档次无法组对,由wellData搞定的例句
3.发布版无法组对,由goodData搞定的例句

例句中也有不怎么样的句子,不必细究,统计数据对认知和决策的指导意义,是建立在大量的累计效果之上的。

想一探究竟的老手们,可以试试。
CheckExamples.rar (11.57 KB, 下载次数: 839)

至此3种全部上传到QQ中转站完毕,7天时限,喜欢的快点下,从今天开始算起!

[ 本帖最后由 michsun 于 2008-1-30 21:43 编辑 ]
2
 楼主| 发表于 2008-1-30 20:36:50 | 只看该作者
不是我的错,你问纳米盘!
3
发表于 2008-1-30 20:49:21 | 只看该作者
等新的网盘地址吧,我才不愿多装个纳米robot
4
发表于 2008-1-30 20:50:53 | 只看该作者
其实用IE下倒是行得通的
5
 楼主| 发表于 2008-1-30 21:00:25 | 只看该作者
最后一个现在往QQ中转站上传中!
6
发表于 2008-1-30 23:52:16 | 只看该作者
机器性能如果很好的话应该不会有什么问题。
空着那么多内存以及CPU时间,简直是太浪费了。
应该允许用户根据自己的实际情况配置

[ 本帖最后由 krsun 于 2008-1-30 23:53 编辑 ]
7
发表于 2008-1-31 00:48:47 | 只看该作者
8
发表于 2008-1-31 01:10:42 | 只看该作者
原帖由 332211 于 2008-1-30 23:43 发表
要取得合理的折衷才好,追求过高的首选准确率若以牺牲输入速度与过大的词库为代价的话那也是不值得的。

同意,汉语的句子的字词组合多种多样,要是吧所有你能想到的词组都列上一个不太可能,在一个大多都是有重复的字或词组组成的,还是用字个常用词组用户自己组成句子为好这样准确和多于的句子少。不能吧英文单词的输入特性硬搬到紫光上,每个人的组词组句习惯和用的词组都因人而异,打多了自己的个人词库多了自然就快了
9
发表于 2008-1-31 01:32:46 | 只看该作者
虽然天气冷点,不过还是半夜下载快得多
10
 楼主| 发表于 2008-1-31 12:54:50 | 只看该作者
现在在用best的!没什么大的感觉!
11
 楼主| 发表于 2008-1-31 23:45:10 | 只看该作者
用了一天best,刚刚输入了点东西,感觉出来了,现在开始用well了!体积与效率我看中的!
12
发表于 2008-2-1 15:22:20 | 只看该作者
刚刚下了best的,正在使用中,不知道是不是有明显的感觉。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2025-12-25 07:20

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表