华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 32768|回复: 71
打印 上一主题 下一主题

追求整句准确率+机器性能不俗+不在乎几十兆存储空间的——请进!

[复制链接]
跳转到指定楼层
1
发表于 2008-1-30 18:18:43 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
紫光华宇拼音输入法V6.1在整句输入能力方面突飞猛进,根据客观、海量测试,在3G(ZG/SG/GG)中首屈一指,测试结果报告详见“用数据说话,整句输入空前跃进”一帖。

本帖之后的连续若干跟帖,是为如题所示的用户专门打造(包括本人),一般来说,这类用户有些基本功,具体实施方案如下说明,应该看得明白,且具有操作能力。

组句式输入要求的数据资料文件位于以下文件夹(子目录)中,文件名是:bigram.dat
"%ALLUSERSPROFILE%\Application Data\unispim6\wordlib"
上面的ALLUSERSPROFILE是系统环境变量,如果系统安装在C盘,则该目录实际如下所示:
"C:\Documents and Settings\All Users\Application Data\unispim6\wordlib"

以更加全面(当然更加庞大)的数据资料文件来替换这个文件,就可以享用更好的整句输入符合度。具体方式就是根据个人喜好和容忍程度,下载相应档次的资料文件,打开资源管理器,进行文件的复制和粘贴,覆盖当前安装的bigram.dat之前,最好做个备份,以便不满意的时候进行恢复。
注意#1:以上操作须在没有打开任何应用程序使用紫光华宇拼音输入法V6.1进行文字输入的情况下实施,如果输入过,即使关闭了输入法,而没有关闭应用程序,也不行,最简单的方法是注销后重新登录,不干别的,先来营造自己喜欢的环境。
注意#2:使用大的数据资料文件,输入法加载时间会长一些,在切换到V6.1后,最好等几秒钟再开始实际的输入活动。

以下跟帖中的附件们,将分别是三种规模(或称档次)需要的数据资料文件,命名为bestData/wellData/goodData,本帖下段的列表是分别采用这四种(加上发布包中的方案)资料文件,进行组句的结果报告。测试句子数目为一万,文字风格是网络大杂烩,词句是从以前的86xxx句子中(海量语料万分之一概率抽取),再次随机抽取(按照8.6分之一的概率)出来10001句,人工删除一句凑一整数得到,其客观性是有一定保障的。

数据资料文件大小  组句符合率 压缩分卷数目    压缩后存储空间
80,728,064≈80M     72.01%            9               44,756,502≈45M
51,519,488≈50M     71.47%            8               31,656,852≈32M
25,743,360≈25M     69.57%            5               17,847,605≈18M
12,451,840≈12M     66.92%

最低档次的准确率(安装包中的方案,为追求安装包不要过大而限制),也高于另外2G约2~3个百分点,对于新崛起的、传说中很不错的QQ,和传统的MS,也将择日继续测试,力争使得判断来自统计数据,而非停留在越来越不那么可靠的感觉上。

之所以发在这个版块,原因有二:其一是本版块的用户的操作能力更有保障一些,其二是限于网络资源不足,难以支撑更大的下载流量,如有仁人达者能够提供分流,则可以在“输入法使用”版块开帖共享,严重感谢!

[ 本帖最后由 ZXD4G 于 2008-1-30 18:29 编辑 ]
71
发表于 2008-4-11 19:02:02 | 只看该作者
原帖由 wuliyen 于 2008-4-11 17:41 发表


ok


啊!那这就真是好东西了!建议 wuliyen 兄弟在本版块单独开一个帖子,放一个链接,以引起更多人的注意!我帮你顶!
70
发表于 2008-4-11 17:41:17 | 只看该作者
原帖由 野风 于 2008-4-11 17:36 发表


好东西啊!支持了!

轻轻的问一下:插件去除了吗?  


ok
69
发表于 2008-4-11 17:36:52 | 只看该作者
原帖由 wuliyen 于 2008-4-11 17:25 发表
紫光华宇拼音输入法V6.1.0.6234(采用 bestData 档的 bigram 文件)

使用 bestData 档的 bigram 文件一段时间,感觉非常不错!
不过重装系统需要替换嫌麻烦,重新打包安装程序,一步到位!
大小:56M
这个是给 ...


好东西啊!支持了!

轻轻的问一下:插件去除了吗?

[ 本帖最后由 野风 于 2008-4-11 17:39 编辑 ]
68
发表于 2008-4-11 17:25:02 | 只看该作者
紫光华宇拼音输入法V6.1.0.6234(采用 bestData 档的 bigram 文件)

使用 bestData 档的 bigram 文件一段时间,感觉非常不错!
不过重装系统需要替换嫌麻烦,重新打包安装程序,一步到位!
大小:56M
这个是给自己使用的,其它朋友如有相同需要的话请自行下载!

http://www.fs2you.com/files/757436f0-07a9-11dd-8d76-0014221f4662/
67
发表于 2008-4-8 21:59:15 | 只看该作者
现在这个大语料库的确已经成为我不可或缺的了……
66
发表于 2008-3-29 16:46:37 | 只看该作者
四哥太强了。。。支持一个。。。
65
发表于 2008-3-16 17:46:25 | 只看该作者
原帖由 真拼音佳佳 于 2008-3-8 16:41 发表


看来半年时间不足以让你对整句心灰意冷,呵呵.

有些东西我知道问题出在哪,你还不知道而已.但是最好不要"永远都不知道",那样就不好玩了.多努力


智能性是皮,语料库是毛,皮之不存毛将焉附?最好别弄反了 ...




好像对输入法很有研究的:)
64
发表于 2008-3-16 17:40:52 | 只看该作者
需要的时候再回来拿吧
不错的东西
63
发表于 2008-3-15 22:09:55 | 只看该作者
原帖由 步虚 于 2008-3-14 23:58 发表
用来一段时间,感觉大语料库非常有用,甚至可以说是不可缺少。

反复试了好几次(与其他几个输入法比较),用紫光输入句子,加上大的语料库(bestData或wellData),效果非常好。

另外,我用的机子老得不能再老 ...

是啊!我也一直在用best 感觉非常好!速度也非常快!
62
发表于 2008-3-14 23:58:29 | 只看该作者
用来一段时间,感觉大语料库非常有用,甚至可以说是不可缺少。

反复试了好几次(与其他几个输入法比较),用紫光输入句子,加上大的语料库(bestData或wellData),效果非常好。

另外,我用的机子老得不能再老了(Intel pIII)。用大词库,输入感觉也相当流畅。
61
发表于 2008-3-10 02:44:47 | 只看该作者
这个东西怎么制作的!?
60
发表于 2008-3-8 21:35:41 | 只看该作者
这地方帖子太少,没啥好灌的.

有远见的也不多唉
59
发表于 2008-3-8 17:40:30 | 只看该作者
好久没见楼上的出来 了
58
发表于 2008-3-8 16:41:10 | 只看该作者
原帖由 ZXD4G 于 2008-1-31 12:14 发表
没错儿,应该是在做同一件事情。
揣测下来,你大概是挫折遭受得多了,对整句输入心灰意冷了,我们是从半年前的无知努力到现在,感觉正好(数学说法大概是:导数为正),所以不惜代价(包括测试:耗时一个多月,二百多万 ...


看来半年时间不足以让你对整句心灰意冷,呵呵.

有些东西我知道问题出在哪,你还不知道而已.但是最好不要"永远都不知道",那样就不好玩了.多努力


智能性是皮,语料库是毛,皮之不存毛将焉附?最好别弄反了...一般我只测智能性,对语料库规模不在意,所以再怎么加大语料库,我仍然可以看出别的问题.上个帖子对比QQ与紫光的智能性,也是由此得出的结论.

改错功能,对于字词输入,基本上就是多余的功能了,改错不如重打来的快.
整句这块的改错功能,黑马神拼很厉害的,四哥版主研究过么?

嗯,测二百多万句...真有耐性^_^
我测一两句就知道该动哪儿了

我用QQ拼音送你两句话
某某某是我朋友的句式
陈丹阳(自造)
陈丹阳是我朋友
我有个叫陈丹阳的朋友

紫光的表现...由你自己试.

还准备花点功夫把纠错功能弄得方便些,微软和智能狂拼的方式值得借鉴
强化纠错是对的,但是借鉴的对象都不对.
智能狂拼1,自然码,谷歌,QQ,这些输入法都跟黑马有联系.
借鉴微软,狂拼?嗯,这是你的"远见"么

[ 本帖最后由 真拼音佳佳 于 2008-3-8 16:55 编辑 ]
57
 楼主| 发表于 2008-3-3 22:17:48 | 只看该作者
我倒是觉得well级别也就差不多了,最近一段时期以来,着意培养整句输入的习惯,用着还确实不错呢,有种模糊的感觉就是——整句输入也能起到排除重码的作用,连着打下来很多就对了,不用人工拆分出词条,再去肉眼鉴别重码,短一些的词汇重码还是不低的,首选词往往还不够准确。

下一步除了再想办法提高准确性之外,还准备花点功夫把纠错功能弄得方便些,微软和智能狂拼的方式值得借鉴。
56
发表于 2008-3-3 20:51:36 | 只看该作者
我现在一直在用best ,感觉很不错!唯一的缺点就是我的个人词库这么长时间来基本没增加什么!
55
发表于 2008-1-31 23:38:57 | 只看该作者
今天用了best 一天,感觉不错。现在开始测试well,个人比较看中这个,体积和效率兼顾!
54
发表于 2008-1-31 18:46:08 | 只看该作者
已经用了best的,没觉得加载的时候变慢呀
53
发表于 2008-1-31 13:38:06 | 只看该作者
虽然我比较喜欢字词输入,还是下一个来试试
52
 楼主| 发表于 2008-1-31 12:14:12 | 只看该作者
没错儿,应该是在做同一件事情。
揣测下来,你大概是挫折遭受得多了,对整句输入心灰意冷了,我们是从半年前的无知努力到现在,感觉正好(数学说法大概是:导数为正),所以不惜代价(包括测试:耗时一个多月,二百多万句,还有谁干过这个活儿?!),试图创造辉煌。如果说将来某一天碰壁,那就说明你有远见,咱们就当是探险吧。
51
发表于 2008-1-31 10:11:28 | 只看该作者
原帖由 ZXD4G 于 2008-1-30 19:07 发表

逆耳吗?真逆耳。有理吗?挺有理。
让我如何打动你——最好的整句要追求,最好的输入法也要追求,前者在根本上并不妨碍后者的进步——你不喜欢整句输入,只偏心速度,不代表所有人都同此好,咱就追求一些随意—— ...


也许大家都在做同一件事情,只不过我更清楚整句的缺点吧?
50
发表于 2008-1-30 21:45:16 | 只看该作者
49
发表于 2008-1-30 21:04:51 | 只看该作者
http://mail.foxmail.com/cgi-bin/ ... 4&code=2b082bba

最后一个gooddata分流到QQ中转站了,纳米盘无法使用。只有7天保留注意!
48
发表于 2008-1-30 20:53:31 | 只看该作者
确实不错!严重感谢!!
47
发表于 2008-1-30 20:49:41 | 只看该作者
下完了,简单试了一个句子,确实很爽!
明天慢慢再试。
46
发表于 2008-1-30 20:35:55 | 只看该作者
原帖由 ZXD4G 于 2008-1-30 20:34 发表

理解正确,祝你愉快。
准备抽空编写一个用于换档的批处理文件,现有一个自用的,需要改写得好看些,才好拿出手去。


估计这个一出,外面各种修改版本都来了!

[ 本帖最后由 michsun 于 2008-1-30 20:37 编辑 ]
45
发表于 2008-1-30 20:35:06 | 只看该作者
原帖由 ZXD4G 于 2008-1-30 20:32 发表
从一些网友守候到现在的热情看,咱这个谈不上产品软件,算是一个候补解决方案的东西,还是有人愿意玩玩儿的。
再次感谢michsun的热心。


没什么反正外面冷,也没什么事情做。最后一个上传中,就是网盘老是出错,估计是看我传的太多,限制了,反正一定分流到底。
44
 楼主| 发表于 2008-1-30 20:34:51 | 只看该作者
原帖由 www1www 于 2008-1-30 20:28 发表


下面的图片,是我的理解,不知对不对?

理解正确,祝你愉快。
准备抽空编写一个用于换档的批处理文件,现有一个自用的,需要改写得好看些,才好拿出手去。
43
发表于 2008-1-30 20:32:38 | 只看该作者
原帖由 www1www 于 2008-1-30 20:28 发表


下面的图片,是我的理解,不知对不对?


应该对吧,四哥说明了!
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2025-12-25 14:20

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表