华宇拼音输入法论坛

标题: 简单测试了几个句子 [打印本页]

作者: xml00    时间: 2007-12-12 16:30
标题: 简单测试了几个句子
今天测试一下紫光的智能特性
解放军转战潜力
肩负着人民的希望
要把红旗查遍祖国四方
哪怕他梅江勾结


可以看出语料库里没有这些内容:


转战千里
红旗插遍
美蒋勾结(这一句好像不合时宜了,哈)
作者: xml00    时间: 2007-12-12 16:33
紫光现在的安装方法挺好的,我没有卸载已经安装的紫光,直接覆盖安装,我以前的设置、双拼自定义、固顶词、短语自定义等内容都很完整的保留下来了。

只有状态栏、候选窗的设置没有保留下来,显示的是默认的界面。
作者: xgjl0    时间: 2007-12-12 16:36
微软3.0中1、2、3。
加加中前1、2。
紫光中2。
作者: fengchun    时间: 2007-12-13 09:36
我的第一个可以出来啊,不知是否跟我加载了成语词库有关

Untitled-1.png (7.74 KB, 下载次数: 181)

Untitled-1.png

作者: xml00    时间: 2007-12-13 10:31
说明你的词库里有“转战千里”这个词。
作者: xml00    时间: 2007-12-13 12:56
名列第二,这个结果应该让紫光开发组受到鼓舞了。
冷静地看,实际和搜狗、QQ在一个档次,略好些而已,比之Google还是有不小差距,还有很大的提升空间。
期望开发组能更进一步。尽管对于词输入法来说,这一性能并不是那么重要,但对于宣传效果来说,影响还是蛮大的。
作者: xml00    时间: 2007-12-13 13:07
体彩丑闻显露中国彩票运行积弊

这个标题各家都错了,一模一样:
题材丑闻线路中国彩票运行击毙

“体彩”错为“题材”大概没有更好的办法,“丑闻显露”应该进入语料库,前面有了“显露”,后面如何正确地隔空出现“积弊”,则需要费一番思量了。“显露……积弊”,值得研究。
作者: fengchun    时间: 2007-12-13 13:08
谷歌有极其强大的语料库在背后支撑,赶上它恐怕非一朝一夕之功。
但是即使是谷歌,拿他的整句打字也不是很爽。拼音输入法的整句化,路漫漫其修远兮啊

[ 本帖最后由 fengchun 于 2007-12-13 14:11 编辑 ]
作者: xml00    时间: 2007-12-13 13:27
“慈善和公益”,只有加加对了,因为词库中有。
“它亟需社会认同”,各家都错。“亟需……认同”,又是隔空对接,都束手无策。
“干嘎”,紫光的词序不合理,是唯一错的。
“国家体育彩票管理中心原法定代表人”,QQ有“中心元”,这样的低频词对于智能组词是不利的。
“会忽视”,加加和搜狗都有,所以组句正确。

目前看来,主要还是语料库的完善问题。隔空对接的算法问题还需要琢磨。
作者: xml00    时间: 2007-12-13 13:31
原帖由 fengchun 于 2007-12-13 13:08 发表
谷歌有及其强大的语料库在背后支撑,赶上它恐怕非一朝一夕之功。
但是即使是谷歌,拿他的整句打字也不是很爽。拼音输入法的整句化,路漫漫其修远兮啊


没错。如果有人能抽时间对阿门大师的测试资料进行一番梳理,在短期内有所提高还是能做到的。
作者: fengyu29    时间: 2007-12-13 15:14
准备向开发组要增量智能语料包结合到大词库中,大家再测试一下.
作者: ZXD4G    时间: 2007-12-17 09:37
内部的测试用例是这样产生的:
1.在百十来G的原始语料中,按照万分之一的概率随机抽取出3字以上的词组和句子,结果为91万条。
2.继续以百分之一的概率抽取,得到九千多条。
3.对谷歌、搜狗和V6改进诸版经过这九千多条的测试,发现谷歌正确率为65.x%,搜狗为69.x%,V6-6197是66.x%,不过,这几天的进一步完善,V6-xxxx已经达到72.x%,还有提高的可能性。
4.准备抽取十万条来测试;同时,把智能狂拼也试试,随便把玩中,感觉智能狂拼对“的地得”、“是时使”处理得不错,别家没有它精致。

抽取活动最为关键的是“随机”。
作者: 野风    时间: 2007-12-17 09:52
原帖由 ZXD4G 于 2007-12-17 09:37 发表
内部的测试用例是这样产生的:
1.在百十来G的原始语料中,按照万分之一的概率随机抽取出3字以上的词组和句子,结果为91万条。
2.继续以百分之一的概率抽取,得到九千多条。
3.对谷歌、搜狗和V6改进诸版经过这九千多条的测试,发现谷歌正确率为65.x%,搜狗为69.x%,V6-6197是66.x%,不过,这几天的进一步完善,V6-xxxx已经达到72.x%,还有提高的可能性。
4.准备抽取十万条来测试;同时,把智能狂拼也试试,随便把玩中,感觉智能狂拼对“的地得”、“是时使”处理得不错,别家没有它精致。

抽取活动最为关键的是“随机”。


四哥,你的这个什么v6-xxxx版本,能不能先拿出来让我们也享受一下呢?o(∩_∩)o
作者: ZXD4G    时间: 2007-12-17 09:58
这个达到72.x%正确率的V6-xxxx版,所用到的资料文件较大,有四十多兆,需要压缩,期望压缩到三分之一,理论上可以压到26%,正在努力中,另外,上帖中提到,还要进行更多测试用例的统计,所以,估计还得等些日子。
作者: ZXD4G    时间: 2007-12-17 10:04
分析组词、组句错误的过程中,也能找出一些词汇的缺失,有印象的至少有两个例子:
1.“绑米空间”,词库中要是没有这个词的话,要想组对,几乎不可能
2.“阿底峡尊者”,这个词只有谷歌正确,因为它收录了该词,其它的基本是“阿地下尊者”
于是,在完善智能组词的过程中,词库也能小小地受到些益处。
作者: fengchun    时间: 2007-12-17 10:20
哇,好高深的词汇,从来没有见过。。

谷歌的智能组词用的是隐含马尔可夫模型,不知道v6是啥?
作者: 野风    时间: 2007-12-17 10:29
哈哈!我的胃口被吊得好高啊! 垂涎三尺……
作者: fengchun    时间: 2007-12-17 17:05
72%的准确率。。
不过ahman大师对南方周末的测试结果显示谷歌是最高的。
作者: 野风    时间: 2007-12-18 10:04
估计两者的区别在于:一个是以“南方周末”语料为准,也就是比较流行的语句;一个是以“百十来个G的”的语料中两次“随机”抽样后的语料为准,包含了未必流行的语句。也就是说,在流行用语上,谷歌占先,在广泛用语方面,搜狗占先。纯属个人见解!

作者: xml00    时间: 2007-12-18 14:15
原帖由 野风 于 2007-12-18 10:04 发表
估计两者的区别在于:一个是以“南方周末”语料为准,也就是比较流行的语句;一个是以“百十来个G的”的语料中两次“随机”抽样后的语料为准,包含了未必流行的语句。也就是说,在流行用语上,谷歌占先,在广泛用 ...


左版的意思大概就是这样吧,统计数据不包含二、三字词。看看左版的进一步解释如何?
作者: fengyu29    时间: 2007-12-18 16:11
我很关心新版的系统词库会不会因为语料库的丰富而变得更大,或者新版中的语料库和系统词库是两个概念?希望左总能够回答一下.
作者: ZXD4G    时间: 2007-12-24 12:33
标题: 说明、更正与汇报
1.咱在上帖中表述的“准确率”统计,确实是按照整个词条或句子是否完全正确来评估的
2.前帖提到的72%,可能有些武断或者乐观得早了些,这是在拥有全部基础资料(几十兆)的情况下,通过一万句随机测试用例得到的,要达到实用、适用,需要在几个方面继续努力:
1) 压缩基础资料,最好控制到10M之内;在此,需要更正以前的错误表述(应该说,那时的认识也是不正确的),理论可行的压缩率26%,其实,压缩到多少都能做到,这个数值的准确含义是”压缩到26%,准确率下降不多,或几乎不下降“,而且,这个数值是从英文体系的资料压缩得到的;对于中文体系的资料,目前,咱们的努力结果是:压缩到13M,准确率下降了,为68.x%;正在试验多种压缩算法的结合,看看是否能够改进。
2) 那一万句测试用例,应该说仅仅是是”训练集合“,纠正若干错误、提高准确率的同时,也自然地和特定场合产生了密切的关联,很难说在其它场合,也能保持这个准确率,所以,需要在其它的、真正的、再大一些的集合中统计准确率。
3) 从语料中提取的随机测试用例,不少句子的质量不佳,有不完整的,有故意用错字的,组对和组错都说明不了实质问题,基本上是大家都错,对于统计数字的干扰也不小。
4) 严格说来,大多数句子应该是五六字以上,所以,对于三字、四字,甚至五字的,大量的测试其实不是考验组句能力,而是考察词库的容量了,当然,词库丰富了,对于输入体验的增进,也是居功至伟;严格统计组句、组词准确率,应该排除已经是词条的用例。
5) 这几天,对接近10万句的随机用例测试,感觉到谷歌确实在长句子(10字以上)的准确率中占有优势,以前提供的几个数值中,可能短句子比重大,其实是比词库,所以,搜狗比它强,V6经过短期的冲刺,也能超越它,这个现象让人十分喜悦,不过,有些过于喜悦了,还需提高分析质量。
作者: 野风    时间: 2007-12-24 12:44
仍旧期待中……
作者: yiwon    时间: 2007-12-24 16:03
期待中...
在想,如果压缩到13M会是68%.
那是否可以在论坛发布不压缩的呢?
也就是72%的版本
作者: 野风    时间: 2007-12-24 16:29
原帖由 yiwon 于 2007-12-24 16:03 发表
期待中...
在想,如果压缩到13M会是68%.
那是否可以在论坛发布不压缩的呢?
也就是72%的版本


赞成!
作者: xml00    时间: 2007-12-26 11:26
7字句以上正确率提高了1~6个百分点。
31楼的测试结果大概为超大词库的“结构优化”提供了一些有用的信息。
①长句可以扩充,甚至是大规模扩充;
②短句应保证质量,数量上可能有一个最佳的平衡点,过多或过少可能都不好。二字词、三字词的影响可能更大。一些高重码的音节组合如yi、ji、shi等重码很多时对造词是不利的。
作者: shardineblog    时间: 2008-1-2 07:24
看了这些回复,感觉紫光要增大词库了,希望臃肿的词库不要拖输入法。
作者: ZXD4G    时间: 2008-1-9 10:28
拍一砖吧,个人以为,六七字词以内的,准确率上不了70%的,不叫智能组词,可用性不高,十字左右的,按百分制不能及格的,应该也需要反省了,肯定是模型或程序不对头或者落伍了,需要耐下心来,把基础的功夫做足,准确率自然能提高。

我们的目标定得很高,期望达到85%以上,开发组内部还有95%准确率的声音,貌似吹牛,其实不然,仅从语料数据的中度加工结果,按照科学的方法,已经能够达到70%左右这个指标,咱们心中还有不少路子未能实践,目前只能评感觉来估计,这些机制逐步引入后,一定能够再创辉煌,目前欠缺的只是时间。

这些天潜藏水底,个人主要是干两件事情:
1.客观评测几个拼音输入法的组词组句能力,有三种测试素材:
1) 网络语料随机提取10句
2) 人民日报2005年全部150万句
3) 金庸小说全集87万句
这个工程接近完工,本周末大约可以把结果向大家公示。
2.词库的继续修订,有两种途径:
1) 通过组词组句分析,发现一些暂时不能攻克的词句,以词库形式来改善输入体验
2) 根据字典、词典、网上词库资料等多种素材,丰富词库

在6.1发布之前,词库是增大的趋势,但不会扩容太多,之后,根据新的组词组句能力,要进行适当删减词条,即词库的规模有个小小的摆动周期,目前词库中应该还有不少废词,也应逐步剔除。
作者: fengchun    时间: 2008-1-9 13:33
个人以为,以现在的语言模型来看,智能组词可能7字词比4字词容易
作者: kingdick    时间: 2008-1-9 20:29
感觉测试的文本需要更改一下吧~~人民日报,金庸小说,内容不是大家用紫光输入的内容。我倒是觉得用QQ聊天记录不错~~呵呵
作者: krsun    时间: 2008-1-10 05:39
语料库是否也可以象专业词库那样分类提供随时切换呢
作者: fengchun    时间: 2008-1-10 09:46
继续期待新版
作者: michsun    时间: 2008-1-10 17:26
原帖由 AhMan 于 2008-1-9 12:39 发表
………不能攻克的词句,以词库形式来改善输入体验………

非常同意,就是应该这样做!注意不要收录罕用句,白收录,罕句实际上毫无作用。

难句例句:
反应还不错
高兴地de说道
然后问到我
坐到了旁边
仔细 ...


6204 最后两个不能直接出,其他OK
作者: htj007    时间: 2008-1-10 18:41
反应还不错
高兴地说到
然后问到我
做到了旁边
仔细的回响
充满着有缘


我的6204有四句不能直接打出

[ 本帖最后由 htj007 于 2008-1-10 18:42 编辑 ]
作者: 野风    时间: 2008-1-10 18:45
反应还不错
高兴地说
然后问到我
充满着油烟
也是三句不能正确打出来!也不容易了,这属于难句,应该用词库来弥补的!

作者: 野风    时间: 2008-1-10 20:40
解放军转战千里
肩负着人民的希望
要把红旗插遍祖国四方
哪怕他梅江勾结
呵呵!真的不错了!

作者: xml00    时间: 2008-1-11 08:42
上次打过之后就造句了。今天先更新了词库,然后删除上次的造句,试了一下,和楼上各位的测试结果相同。呵呵,是不错。
作者: xml00    时间: 2008-1-14 09:48
等待大师的最终测试结果。
作者: xml00    时间: 2008-1-14 13:54
从整体上看,仍是谷歌的正确率最高。
比之上一个版本,紫光自身的正确率有提高。
在长词方面,紫光的表现要好一些。
短词方面,不知是词频还是没有固顶词的缘故,紫光的表现较差。

image002.gif (6.08 KB, 下载次数: 56)

image002.gif

作者: xml00    时间: 2008-1-14 14:01
短词方面(4~6字词),谷歌和加加持平,加加略好于谷歌。两者都有固顶词。
长词方面(7~16字词),谷歌优势明显,加加和紫光不相上下,搜狗较差。语料库?算法?甚或两者都有?
作者: xml00    时间: 2008-1-16 10:27
搜狗这儿有个帖子,说的是简拼时的智能组词问题:
http://s.sogou.com/f?s=%CB%D1%B9 ... 8%EB%B7%A8&t=TP$sgW7wv8Jxt3FBAAAA&page=1#anchor11&w=04032500&dr=1
用简拼打:拼音输入法和五笔输入法。只有谷歌是对的。
我的测试结果是:
谷歌:拼音输入法和五笔输入法(显然是长词优先的切分方法)
加加便携版(4.9.0.5):拼音输入 法海无边 输入法(按四字词切分,“法海无边”参考了“拼音输入法”的尾字)
搜狗:没有给出智能组词,看看如何造词——
拼音输入 符合我不 输入法(和加加的切分方式一致,但没有参考那个“法”字)
紫光:没有给出智能组词,看看如何造词——
培养所 热负荷 王炳森 乳房(呵呵,有意思。和加加、搜狗的切分方式不同)

终归还是算法的问题,或许还有语料库的问题。
作者: fengchun    时间: 2008-1-16 10:32
我在另外一个帖子里面也提到了简拼时候不能智能组词的问题
如果用全拼打,紫光是对的,但是加加是错的。其余的没有试验
作者: xml00    时间: 2008-1-16 10:33
关于智能组词的讨论似乎再一次证明了这一点:
这个长句如果按照“字词输入”方式,也就是人工切分的方式,都是能够正确输入的。
拼音输入法 和 五笔输入法
只不过多了两次空格确认。
作者: ZXD4G    时间: 2008-1-23 12:28
开了一个新帖,参见:
http://bbs.unispim.com/viewthread.php?tid=1201&extra=page%3D1
作者: 真拼音佳佳    时间: 2008-1-27 10:09
智能性高低无非是两个问题:语料库是否充足,直接对比输入法体积就足够了.看算法是否优秀,打一句话就能搞清楚算法了.
作者: 紫光蓝天    时间: 2011-11-28 07:50
试了一下:

现在的版本

解放军转战千里
肩负着人民的希望
要把红旗插遍祖国四方

这三句都可正确打出
作者: ljdqe    时间: 2011-11-28 19:51
哇,好老的帖子哦




欢迎光临 华宇拼音输入法论坛 (http://bbs.pinyin.thunisoft.com/) Powered by Discuz! X3.2