华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
楼主: ZXD4G
打印 上一主题 下一主题

追求整句准确率+机器性能不俗+不在乎几十兆存储空间的——请进!

[复制链接]
31
 楼主| 发表于 2008-1-30 19:57:33 | 只看该作者

goodData 1/5

goodData.part1.rar

3.91 MB, 下载次数: 310

32
 楼主| 发表于 2008-1-30 20:03:31 | 只看该作者

goodData 2/5

goodData.part2.rar

3.91 MB, 下载次数: 308

33
发表于 2008-1-30 20:05:58 | 只看该作者
34
 楼主| 发表于 2008-1-30 20:11:45 | 只看该作者

goodData 3/5

goodData.part3.rar

3.91 MB, 下载次数: 301

35
发表于 2008-1-30 20:17:33 | 只看该作者
是不是best的内容包含well,而well的内容包含good,good的内容包含v6.1的安装包里的bigram文件?

如果是这样的话,那么,喜欢的朋友,使用一个best你的bigram替换安装包里的bigram就行了

[ 本帖最后由 www1www 于 2008-1-30 20:19 编辑 ]
36
 楼主| 发表于 2008-1-30 20:17:36 | 只看该作者

goodData 4/5

goodData.part4.rar

3.91 MB, 下载次数: 296

37
 楼主| 发表于 2008-1-30 20:19:38 | 只看该作者

goodData 5/5

goodData.part5.rar

1.4 MB, 下载次数: 472

38
发表于 2008-1-30 20:20:25 | 只看该作者
原帖由 www1www 于 2008-1-30 20:17 发表
是不是best的内容包含well,而well的内容包含good,good的内容包含v6.1的安装包里的bigram文件?


good应该不是包括在6.1中的,6.1是最后的那种12,451,840≈12M     66.92%!
39
发表于 2008-1-30 20:22:33 | 只看该作者
全部下好,一个个试试看!
40
 楼主| 发表于 2008-1-30 20:28:40 | 只看该作者

方案实体传输完毕,测试集合示例

本次上传三个文件,分别是bestWork.txt、wellWork.txt、goodWork.txt,分别代表:
1.前三个档次无法组对,由bestData搞定的例句
2.前两个档次无法组对,由wellData搞定的例句
3.发布版无法组对,由goodData搞定的例句

例句中也有不怎么样的句子,不必细究,统计数据对认知和决策的指导意义,是建立在大量的累计效果之上的。

想一探究竟的老手们,可以试试。

CheckExamples.rar

11.57 KB, 下载次数: 399

41
发表于 2008-1-30 20:28:58 | 只看该作者
原帖由 michsun 于 2008-1-30 20:20 发表


good应该不是包括在6.1中的,6.1是最后的那种12,451,840≈12M     66.92%!


下面的图片,是我的理解,不知对不对?

2008-01-30_203200.png (42.63 KB, 下载次数: 52)

2008-01-30_203200.png
42
 楼主| 发表于 2008-1-30 20:32:08 | 只看该作者
从一些网友守候到现在的热情看,咱这个谈不上产品软件,算是一个候补解决方案的东西,还是有人愿意玩玩儿的。
再次感谢michsun的热心。
43
发表于 2008-1-30 20:32:38 | 只看该作者
原帖由 www1www 于 2008-1-30 20:28 发表


下面的图片,是我的理解,不知对不对?


应该对吧,四哥说明了!
44
 楼主| 发表于 2008-1-30 20:34:51 | 只看该作者
原帖由 www1www 于 2008-1-30 20:28 发表


下面的图片,是我的理解,不知对不对?

理解正确,祝你愉快。
准备抽空编写一个用于换档的批处理文件,现有一个自用的,需要改写得好看些,才好拿出手去。
45
发表于 2008-1-30 20:35:06 | 只看该作者
原帖由 ZXD4G 于 2008-1-30 20:32 发表
从一些网友守候到现在的热情看,咱这个谈不上产品软件,算是一个候补解决方案的东西,还是有人愿意玩玩儿的。
再次感谢michsun的热心。


没什么反正外面冷,也没什么事情做。最后一个上传中,就是网盘老是出错,估计是看我传的太多,限制了,反正一定分流到底。
46
发表于 2008-1-30 20:35:55 | 只看该作者
原帖由 ZXD4G 于 2008-1-30 20:34 发表

理解正确,祝你愉快。
准备抽空编写一个用于换档的批处理文件,现有一个自用的,需要改写得好看些,才好拿出手去。


估计这个一出,外面各种修改版本都来了!

[ 本帖最后由 michsun 于 2008-1-30 20:37 编辑 ]
47
发表于 2008-1-30 20:49:41 | 只看该作者
下完了,简单试了一个句子,确实很爽!
明天慢慢再试。
48
发表于 2008-1-30 20:53:31 | 只看该作者
确实不错!严重感谢!!
49
发表于 2008-1-30 21:04:51 | 只看该作者
http://mail.foxmail.com/cgi-bin/ ... 4&code=2b082bba

最后一个gooddata分流到QQ中转站了,纳米盘无法使用。只有7天保留注意!
50
发表于 2008-1-30 21:45:16 | 只看该作者
51
发表于 2008-1-31 10:11:28 | 只看该作者
原帖由 ZXD4G 于 2008-1-30 19:07 发表

逆耳吗?真逆耳。有理吗?挺有理。
让我如何打动你——最好的整句要追求,最好的输入法也要追求,前者在根本上并不妨碍后者的进步——你不喜欢整句输入,只偏心速度,不代表所有人都同此好,咱就追求一些随意—— ...


也许大家都在做同一件事情,只不过我更清楚整句的缺点吧?
52
 楼主| 发表于 2008-1-31 12:14:12 | 只看该作者
没错儿,应该是在做同一件事情。
揣测下来,你大概是挫折遭受得多了,对整句输入心灰意冷了,我们是从半年前的无知努力到现在,感觉正好(数学说法大概是:导数为正),所以不惜代价(包括测试:耗时一个多月,二百多万句,还有谁干过这个活儿?!),试图创造辉煌。如果说将来某一天碰壁,那就说明你有远见,咱们就当是探险吧。
53
发表于 2008-1-31 13:38:06 | 只看该作者
虽然我比较喜欢字词输入,还是下一个来试试
54
发表于 2008-1-31 18:46:08 | 只看该作者
已经用了best的,没觉得加载的时候变慢呀
55
发表于 2008-1-31 23:38:57 | 只看该作者
今天用了best 一天,感觉不错。现在开始测试well,个人比较看中这个,体积和效率兼顾!
56
发表于 2008-3-3 20:51:36 | 只看该作者
我现在一直在用best ,感觉很不错!唯一的缺点就是我的个人词库这么长时间来基本没增加什么!
57
 楼主| 发表于 2008-3-3 22:17:48 | 只看该作者
我倒是觉得well级别也就差不多了,最近一段时期以来,着意培养整句输入的习惯,用着还确实不错呢,有种模糊的感觉就是——整句输入也能起到排除重码的作用,连着打下来很多就对了,不用人工拆分出词条,再去肉眼鉴别重码,短一些的词汇重码还是不低的,首选词往往还不够准确。

下一步除了再想办法提高准确性之外,还准备花点功夫把纠错功能弄得方便些,微软和智能狂拼的方式值得借鉴。
58
发表于 2008-3-8 16:41:10 | 只看该作者
原帖由 ZXD4G 于 2008-1-31 12:14 发表
没错儿,应该是在做同一件事情。
揣测下来,你大概是挫折遭受得多了,对整句输入心灰意冷了,我们是从半年前的无知努力到现在,感觉正好(数学说法大概是:导数为正),所以不惜代价(包括测试:耗时一个多月,二百多万 ...


看来半年时间不足以让你对整句心灰意冷,呵呵.

有些东西我知道问题出在哪,你还不知道而已.但是最好不要"永远都不知道",那样就不好玩了.多努力


智能性是皮,语料库是毛,皮之不存毛将焉附?最好别弄反了...一般我只测智能性,对语料库规模不在意,所以再怎么加大语料库,我仍然可以看出别的问题.上个帖子对比QQ与紫光的智能性,也是由此得出的结论.

改错功能,对于字词输入,基本上就是多余的功能了,改错不如重打来的快.
整句这块的改错功能,黑马神拼很厉害的,四哥版主研究过么?

嗯,测二百多万句...真有耐性^_^
我测一两句就知道该动哪儿了

我用QQ拼音送你两句话
某某某是我朋友的句式
陈丹阳(自造)
陈丹阳是我朋友
我有个叫陈丹阳的朋友

紫光的表现...由你自己试.

还准备花点功夫把纠错功能弄得方便些,微软和智能狂拼的方式值得借鉴
强化纠错是对的,但是借鉴的对象都不对.
智能狂拼1,自然码,谷歌,QQ,这些输入法都跟黑马有联系.
借鉴微软,狂拼?嗯,这是你的"远见"么

[ 本帖最后由 真拼音佳佳 于 2008-3-8 16:55 编辑 ]
59
发表于 2008-3-8 17:40:30 | 只看该作者
好久没见楼上的出来 了
60
发表于 2008-3-8 21:35:41 | 只看该作者
这地方帖子太少,没啥好灌的.

有远见的也不多唉
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2025-12-25 12:46

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表