华宇拼音输入法论坛

标题: 追求整句准确率+机器性能不俗+不在乎几十兆存储空间的——请进! [打印本页]

作者: ZXD4G    时间: 2008-1-30 18:18
标题: 追求整句准确率+机器性能不俗+不在乎几十兆存储空间的——请进!
紫光华宇拼音输入法V6.1在整句输入能力方面突飞猛进,根据客观、海量测试,在3G(ZG/SG/GG)中首屈一指,测试结果报告详见“用数据说话,整句输入空前跃进”一帖。

本帖之后的连续若干跟帖,是为如题所示的用户专门打造(包括本人),一般来说,这类用户有些基本功,具体实施方案如下说明,应该看得明白,且具有操作能力。

组句式输入要求的数据资料文件位于以下文件夹(子目录)中,文件名是:bigram.dat
"%ALLUSERSPROFILE%\Application Data\unispim6\wordlib"
上面的ALLUSERSPROFILE是系统环境变量,如果系统安装在C盘,则该目录实际如下所示:
"C:\Documents and Settings\All Users\Application Data\unispim6\wordlib"

以更加全面(当然更加庞大)的数据资料文件来替换这个文件,就可以享用更好的整句输入符合度。具体方式就是根据个人喜好和容忍程度,下载相应档次的资料文件,打开资源管理器,进行文件的复制和粘贴,覆盖当前安装的bigram.dat之前,最好做个备份,以便不满意的时候进行恢复。
注意#1:以上操作须在没有打开任何应用程序使用紫光华宇拼音输入法V6.1进行文字输入的情况下实施,如果输入过,即使关闭了输入法,而没有关闭应用程序,也不行,最简单的方法是注销后重新登录,不干别的,先来营造自己喜欢的环境。
注意#2:使用大的数据资料文件,输入法加载时间会长一些,在切换到V6.1后,最好等几秒钟再开始实际的输入活动。

以下跟帖中的附件们,将分别是三种规模(或称档次)需要的数据资料文件,命名为bestData/wellData/goodData,本帖下段的列表是分别采用这四种(加上发布包中的方案)资料文件,进行组句的结果报告。测试句子数目为一万,文字风格是网络大杂烩,词句是从以前的86xxx句子中(海量语料万分之一概率抽取),再次随机抽取(按照8.6分之一的概率)出来10001句,人工删除一句凑一整数得到,其客观性是有一定保障的。

数据资料文件大小  组句符合率 压缩分卷数目    压缩后存储空间
80,728,064≈80M     72.01%            9               44,756,502≈45M
51,519,488≈50M     71.47%            8               31,656,852≈32M
25,743,360≈25M     69.57%            5               17,847,605≈18M
12,451,840≈12M     66.92%

最低档次的准确率(安装包中的方案,为追求安装包不要过大而限制),也高于另外2G约2~3个百分点,对于新崛起的、传说中很不错的QQ,和传统的MS,也将择日继续测试,力争使得判断来自统计数据,而非停留在越来越不那么可靠的感觉上。

之所以发在这个版块,原因有二:其一是本版块的用户的操作能力更有保障一些,其二是限于网络资源不足,难以支撑更大的下载流量,如有仁人达者能够提供分流,则可以在“输入法使用”版块开帖共享,严重感谢!

[ 本帖最后由 ZXD4G 于 2008-1-30 18:29 编辑 ]
作者: ZXD4G    时间: 2008-1-30 18:24
标题: bestData 1/9

bestData.part01.rar

4.88 MB, 下载次数: 856


作者: ZXD4G    时间: 2008-1-30 18:29
标题: bestData 2/9

bestData.part02.rar

4.88 MB, 下载次数: 805


作者: ZXD4G    时间: 2008-1-30 18:34
标题: bestData 3/9

bestData.part03.rar

4.88 MB, 下载次数: 980


作者: ZXD4G    时间: 2008-1-30 18:38
标题: bestData 4/9

bestData.part04.rar

4.88 MB, 下载次数: 812


作者: xml00    时间: 2008-1-30 18:39
俺这也是沙发。首先下载试用。
哦,不好意思,楼主还没发完。
其实可以集中在一个帖子中。
原帖由 ZXD4G 于 2008-1-30 18:44 发表
文中如有说明不够详细的,也请先生以一个用户的体会来辅助解说一二。
论坛上传附件有限制,不得不如此麻烦,也许是土了,请见谅。

我已经打乱次序了,暂时不跟贴了。

[ 本帖最后由 xml00 于 2008-1-30 18:56 编辑 ]
作者: ZXD4G    时间: 2008-1-30 18:43
标题: bestData 5/9

bestData.part05.rar

4.88 MB, 下载次数: 763


作者: ZXD4G    时间: 2008-1-30 18:44
文中如有说明不够详细的,也请先生以一个用户的体会来辅助解说一二。
论坛上传附件有限制,不得不如此麻烦,也许是土了,请见谅。

[ 本帖最后由 ZXD4G 于 2008-1-30 18:48 编辑 ]
作者: ZXD4G    时间: 2008-1-30 18:48
标题: bestData 6/9

bestData.part06.rar

4.88 MB, 下载次数: 850


作者: ZXD4G    时间: 2008-1-30 18:54
标题: bestData 7/9

bestData.part07.rar

4.88 MB, 下载次数: 669


作者: michsun    时间: 2008-1-30 18:54
还没传齐吧,等9个都出来了!
作者: kingdick    时间: 2008-1-30 18:55
动作挺快的。如此发布一个软件,还是第一次见到~~
作者: ZXD4G    时间: 2008-1-30 18:58
见笑了,K版,准确地说:这些东西不是“软件”,而是“解决方案”,两者的差异见仁见智吧。
作者: 真拼音佳佳    时间: 2008-1-30 19:00
还需要补充一条:不在乎打字词的人比你快得多的速度.
整句做到最好,也只是最好的整句,而不是最好的输入法.
作者: ZXD4G    时间: 2008-1-30 19:00
标题: bestData 8/9

bestData.part08.rar

4.88 MB, 下载次数: 669


作者: ZXD4G    时间: 2008-1-30 19:05
标题: bestData 9/9

bestData.part09.rar

3.62 MB, 下载次数: 499


作者: ZXD4G    时间: 2008-1-30 19:07
原帖由 真拼音佳佳 于 2008-1-30 19:00 发表
还需要补充一条:不在乎打字词的人比你快得多的速度.
整句做到最好,也只是最好的整句,而不是最好的输入法.

逆耳吗?真逆耳。有理吗?挺有理。
让我如何打动你——最好的整句要追求,最好的输入法也要追求,前者在根本上并不妨碍后者的进步——你不喜欢整句输入,只偏心速度,不代表所有人都同此好,咱就追求一些随意——希望继续保持关注。
作者: ZXD4G    时间: 2008-1-30 19:12
标题: wellData 1/8

wellData.part01.rar

3.91 MB, 下载次数: 408


作者: xml00    时间: 2008-1-30 19:15
智能组词也不光是对整句输入有好处,对于字词类输入法也有一定好处。遇到词库中没有的词时,智能组词正确率较高,就可以少一些造词。字词类输入法不妨偏重于短词的组词正确率研究。
作者: ZXD4G    时间: 2008-1-30 19:18
标题: wellData 2/8

wellData.part02.rar

3.91 MB, 下载次数: 401


作者: ZXD4G    时间: 2008-1-30 19:24
标题: wellData 3/8

wellData.part03.rar

3.91 MB, 下载次数: 788


作者: ZXD4G    时间: 2008-1-30 19:29
标题: wellData 4/8

wellData.part04.rar

3.91 MB, 下载次数: 535


作者: michsun    时间: 2008-1-30 19:31
已经分流bestData了,下载:http://www.namipan.com/d/bestDat ... f5a831bac402552a402

42.2MB!

[ 本帖最后由 michsun 于 2008-1-30 19:33 编辑 ]
作者: ZXD4G    时间: 2008-1-30 19:35
标题: wellData 5/8

wellData.part05.rar

3.91 MB, 下载次数: 408


作者: ZXD4G    时间: 2008-1-30 19:39
感谢michsun
作者: ZXD4G    时间: 2008-1-30 19:40
标题: wellData 6/8

wellData.part06.rar

3.91 MB, 下载次数: 415


作者: michsun    时间: 2008-1-30 19:41
原帖由 ZXD4G 于 2008-1-30 19:39 发表
感谢michsun


不用客气,等你其他的!
作者: ZXD4G    时间: 2008-1-30 19:46
标题: wellData 7/8

wellData.part07.rar

3.91 MB, 下载次数: 388


作者: ZXD4G    时间: 2008-1-30 19:50
标题: wellData 8/8

wellData.part08.rar

2.85 MB, 下载次数: 372


作者: michsun    时间: 2008-1-30 19:56
期待最后5个包
作者: ZXD4G    时间: 2008-1-30 19:57
标题: goodData 1/5

goodData.part1.rar

3.91 MB, 下载次数: 310


作者: ZXD4G    时间: 2008-1-30 20:03
标题: goodData 2/5

goodData.part2.rar

3.91 MB, 下载次数: 308


作者: michsun    时间: 2008-1-30 20:05
分流wellData:http://www.namipan.com/d/wellDat ... e23f00a9aed5c50df01
作者: ZXD4G    时间: 2008-1-30 20:11
标题: goodData 3/5

goodData.part3.rar

3.91 MB, 下载次数: 301


作者: www1www    时间: 2008-1-30 20:17
是不是best的内容包含well,而well的内容包含good,good的内容包含v6.1的安装包里的bigram文件?

如果是这样的话,那么,喜欢的朋友,使用一个best你的bigram替换安装包里的bigram就行了

[ 本帖最后由 www1www 于 2008-1-30 20:19 编辑 ]
作者: ZXD4G    时间: 2008-1-30 20:17
标题: goodData 4/5

goodData.part4.rar

3.91 MB, 下载次数: 296


作者: ZXD4G    时间: 2008-1-30 20:19
标题: goodData 5/5

goodData.part5.rar

1.4 MB, 下载次数: 472


作者: michsun    时间: 2008-1-30 20:20
原帖由 www1www 于 2008-1-30 20:17 发表
是不是best的内容包含well,而well的内容包含good,good的内容包含v6.1的安装包里的bigram文件?


good应该不是包括在6.1中的,6.1是最后的那种12,451,840≈12M     66.92%!
作者: michsun    时间: 2008-1-30 20:22
全部下好,一个个试试看!
作者: ZXD4G    时间: 2008-1-30 20:28
标题: 方案实体传输完毕,测试集合示例
本次上传三个文件,分别是bestWork.txt、wellWork.txt、goodWork.txt,分别代表:
1.前三个档次无法组对,由bestData搞定的例句
2.前两个档次无法组对,由wellData搞定的例句
3.发布版无法组对,由goodData搞定的例句

例句中也有不怎么样的句子,不必细究,统计数据对认知和决策的指导意义,是建立在大量的累计效果之上的。

想一探究竟的老手们,可以试试。

CheckExamples.rar

11.57 KB, 下载次数: 399


作者: www1www    时间: 2008-1-30 20:28
原帖由 michsun 于 2008-1-30 20:20 发表


good应该不是包括在6.1中的,6.1是最后的那种12,451,840≈12M     66.92%!


下面的图片,是我的理解,不知对不对?

2008-01-30_203200.png (42.63 KB, 下载次数: 52)

2008-01-30_203200.png

作者: ZXD4G    时间: 2008-1-30 20:32
从一些网友守候到现在的热情看,咱这个谈不上产品软件,算是一个候补解决方案的东西,还是有人愿意玩玩儿的。
再次感谢michsun的热心。
作者: michsun    时间: 2008-1-30 20:32
原帖由 www1www 于 2008-1-30 20:28 发表


下面的图片,是我的理解,不知对不对?


应该对吧,四哥说明了!
作者: ZXD4G    时间: 2008-1-30 20:34
原帖由 www1www 于 2008-1-30 20:28 发表


下面的图片,是我的理解,不知对不对?

理解正确,祝你愉快。
准备抽空编写一个用于换档的批处理文件,现有一个自用的,需要改写得好看些,才好拿出手去。
作者: michsun    时间: 2008-1-30 20:35
原帖由 ZXD4G 于 2008-1-30 20:32 发表
从一些网友守候到现在的热情看,咱这个谈不上产品软件,算是一个候补解决方案的东西,还是有人愿意玩玩儿的。
再次感谢michsun的热心。


没什么反正外面冷,也没什么事情做。最后一个上传中,就是网盘老是出错,估计是看我传的太多,限制了,反正一定分流到底。
作者: michsun    时间: 2008-1-30 20:35
原帖由 ZXD4G 于 2008-1-30 20:34 发表

理解正确,祝你愉快。
准备抽空编写一个用于换档的批处理文件,现有一个自用的,需要改写得好看些,才好拿出手去。


估计这个一出,外面各种修改版本都来了!

[ 本帖最后由 michsun 于 2008-1-30 20:37 编辑 ]
作者: xml00    时间: 2008-1-30 20:49
下完了,简单试了一个句子,确实很爽!
明天慢慢再试。
作者: www1www    时间: 2008-1-30 20:53
确实不错!严重感谢!!
作者: michsun    时间: 2008-1-30 21:04
http://mail.foxmail.com/cgi-bin/ ... 4&code=2b082bba

最后一个gooddata分流到QQ中转站了,纳米盘无法使用。只有7天保留注意!
作者: michsun    时间: 2008-1-30 21:45
最后一次分流到QQ中转站,时限是7天默认,需要的抓紧下:
B:http://mail.foxmail.com/cgi-bin/ ... 6&code=cfa20ff4
W:http://mail.foxmail.com/cgi-bin/ ... 6&code=07e78efe
G:http://mail.foxmail.com/cgi-bin/ ... 4&code=2b082bba
作者: 真拼音佳佳    时间: 2008-1-31 10:11
原帖由 ZXD4G 于 2008-1-30 19:07 发表

逆耳吗?真逆耳。有理吗?挺有理。
让我如何打动你——最好的整句要追求,最好的输入法也要追求,前者在根本上并不妨碍后者的进步——你不喜欢整句输入,只偏心速度,不代表所有人都同此好,咱就追求一些随意—— ...


也许大家都在做同一件事情,只不过我更清楚整句的缺点吧?
作者: ZXD4G    时间: 2008-1-31 12:14
没错儿,应该是在做同一件事情。
揣测下来,你大概是挫折遭受得多了,对整句输入心灰意冷了,我们是从半年前的无知努力到现在,感觉正好(数学说法大概是:导数为正),所以不惜代价(包括测试:耗时一个多月,二百多万句,还有谁干过这个活儿?!),试图创造辉煌。如果说将来某一天碰壁,那就说明你有远见,咱们就当是探险吧。
作者: htj007    时间: 2008-1-31 13:38
虽然我比较喜欢字词输入,还是下一个来试试
作者: wwk51    时间: 2008-1-31 18:46
已经用了best的,没觉得加载的时候变慢呀
作者: michsun    时间: 2008-1-31 23:38
今天用了best 一天,感觉不错。现在开始测试well,个人比较看中这个,体积和效率兼顾!
作者: 野风    时间: 2008-3-3 20:51
我现在一直在用best ,感觉很不错!唯一的缺点就是我的个人词库这么长时间来基本没增加什么!
作者: ZXD4G    时间: 2008-3-3 22:17
我倒是觉得well级别也就差不多了,最近一段时期以来,着意培养整句输入的习惯,用着还确实不错呢,有种模糊的感觉就是——整句输入也能起到排除重码的作用,连着打下来很多就对了,不用人工拆分出词条,再去肉眼鉴别重码,短一些的词汇重码还是不低的,首选词往往还不够准确。

下一步除了再想办法提高准确性之外,还准备花点功夫把纠错功能弄得方便些,微软和智能狂拼的方式值得借鉴。
作者: 真拼音佳佳    时间: 2008-3-8 16:41
原帖由 ZXD4G 于 2008-1-31 12:14 发表
没错儿,应该是在做同一件事情。
揣测下来,你大概是挫折遭受得多了,对整句输入心灰意冷了,我们是从半年前的无知努力到现在,感觉正好(数学说法大概是:导数为正),所以不惜代价(包括测试:耗时一个多月,二百多万 ...


看来半年时间不足以让你对整句心灰意冷,呵呵.

有些东西我知道问题出在哪,你还不知道而已.但是最好不要"永远都不知道",那样就不好玩了.多努力


智能性是皮,语料库是毛,皮之不存毛将焉附?最好别弄反了...一般我只测智能性,对语料库规模不在意,所以再怎么加大语料库,我仍然可以看出别的问题.上个帖子对比QQ与紫光的智能性,也是由此得出的结论.

改错功能,对于字词输入,基本上就是多余的功能了,改错不如重打来的快.
整句这块的改错功能,黑马神拼很厉害的,四哥版主研究过么?

嗯,测二百多万句...真有耐性^_^
我测一两句就知道该动哪儿了

我用QQ拼音送你两句话
某某某是我朋友的句式
陈丹阳(自造)
陈丹阳是我朋友
我有个叫陈丹阳的朋友

紫光的表现...由你自己试.

还准备花点功夫把纠错功能弄得方便些,微软和智能狂拼的方式值得借鉴
强化纠错是对的,但是借鉴的对象都不对.
智能狂拼1,自然码,谷歌,QQ,这些输入法都跟黑马有联系.
借鉴微软,狂拼?嗯,这是你的"远见"么

[ 本帖最后由 真拼音佳佳 于 2008-3-8 16:55 编辑 ]
作者: kingdick    时间: 2008-3-8 17:40
好久没见楼上的出来 了
作者: 真拼音佳佳    时间: 2008-3-8 21:35
这地方帖子太少,没啥好灌的.

有远见的也不多唉
作者: 春风化雨    时间: 2008-3-10 02:44
这个东西怎么制作的!?
作者: 步虚    时间: 2008-3-14 23:58
用来一段时间,感觉大语料库非常有用,甚至可以说是不可缺少。

反复试了好几次(与其他几个输入法比较),用紫光输入句子,加上大的语料库(bestData或wellData),效果非常好。

另外,我用的机子老得不能再老了(Intel pIII)。用大词库,输入感觉也相当流畅。
作者: 野风    时间: 2008-3-15 22:09
原帖由 步虚 于 2008-3-14 23:58 发表
用来一段时间,感觉大语料库非常有用,甚至可以说是不可缺少。

反复试了好几次(与其他几个输入法比较),用紫光输入句子,加上大的语料库(bestData或wellData),效果非常好。

另外,我用的机子老得不能再老 ...

[fly]是啊!我也一直在用best 感觉非常好!速度也非常快![/fly]
作者: kork2006    时间: 2008-3-16 17:40
需要的时候再回来拿吧
不错的东西
作者: kork2006    时间: 2008-3-16 17:46
原帖由 真拼音佳佳 于 2008-3-8 16:41 发表


看来半年时间不足以让你对整句心灰意冷,呵呵.

有些东西我知道问题出在哪,你还不知道而已.但是最好不要"永远都不知道",那样就不好玩了.多努力


智能性是皮,语料库是毛,皮之不存毛将焉附?最好别弄反了 ...




好像对输入法很有研究的:)
作者: shardineblog    时间: 2008-3-29 16:46
四哥太强了。。。支持一个。。。
作者: 野风    时间: 2008-4-8 21:59
现在这个大语料库的确已经成为我不可或缺的了……
作者: wuliyen    时间: 2008-4-11 17:25
紫光华宇拼音输入法V6.1.0.6234(采用 bestData 档的 bigram 文件)

使用 bestData 档的 bigram 文件一段时间,感觉非常不错!
不过重装系统需要替换嫌麻烦,重新打包安装程序,一步到位!
大小:56M
这个是给自己使用的,其它朋友如有相同需要的话请自行下载!

http://www.fs2you.com/files/757436f0-07a9-11dd-8d76-0014221f4662/
作者: 野风    时间: 2008-4-11 17:36
原帖由 wuliyen 于 2008-4-11 17:25 发表
紫光华宇拼音输入法V6.1.0.6234(采用 bestData 档的 bigram 文件)

使用 bestData 档的 bigram 文件一段时间,感觉非常不错!
不过重装系统需要替换嫌麻烦,重新打包安装程序,一步到位!
大小:56M
这个是给 ...


好东西啊!支持了!

轻轻的问一下:插件去除了吗?

[ 本帖最后由 野风 于 2008-4-11 17:39 编辑 ]
作者: wuliyen    时间: 2008-4-11 17:41
原帖由 野风 于 2008-4-11 17:36 发表


好东西啊!支持了!

轻轻的问一下:插件去除了吗?  


ok
作者: 野风    时间: 2008-4-11 19:02
原帖由 wuliyen 于 2008-4-11 17:41 发表


ok


啊!那这就真是好东西了!建议 wuliyen 兄弟在本版块单独开一个帖子,放一个链接,以引起更多人的注意!我帮你顶!




欢迎光临 华宇拼音输入法论坛 (http://bbs.pinyin.thunisoft.com/) Powered by Discuz! X3.2