简单测试了几个句子

xml00 · 发表于 2007-12-12 16:30:18

今天测试一下紫光的智能特性
解放军转战潜力
肩负着人民的希望
要把红旗查遍祖国四方
哪怕他梅江勾结

可以看出语料库里没有这些内容：

转战千里
红旗插遍
美蒋勾结（这一句好像不合时宜了，哈）

xml00 · 发表于 2007-12-12 16:33:39

紫光现在的安装方法挺好的，我没有卸载已经安装的紫光，直接覆盖安装，我以前的设置、双拼自定义、固顶词、短语自定义等内容都很完整的保留下来了。

只有状态栏、候选窗的设置没有保留下来，显示的是默认的界面。

xgjl0 · 发表于 2007-12-12 16:36:43

微软3.0中1、2、3。
加加中前1、2。
紫光中2。

fengchun · 发表于 2007-12-13 09:36:39

我的第一个可以出来啊，不知是否跟我加载了成语词库有关

xml00 · 发表于 2007-12-13 10:31:51

说明你的词库里有“转战千里”这个词。

xml00 · 发表于 2007-12-13 12:56:31

名列第二，这个结果应该让紫光开发组受到鼓舞了。
冷静地看，实际和搜狗、QQ在一个档次，略好些而已，比之Google还是有不小差距，还有很大的提升空间。
期望开发组能更进一步。尽管对于词输入法来说，这一性能并不是那么重要，但对于宣传效果来说，影响还是蛮大的。

xml00 · 发表于 2007-12-13 13:07:12

体彩丑闻显露中国彩票运行积弊

这个标题各家都错了，一模一样：
题材丑闻线路中国彩票运行击毙

“体彩”错为“题材”大概没有更好的办法，“丑闻显露”应该进入语料库，前面有了“显露”，后面如何正确地隔空出现“积弊”，则需要费一番思量了。“显露……积弊”，值得研究。

fengchun · 发表于 2007-12-13 13:08:58

谷歌有极其强大的语料库在背后支撑，赶上它恐怕非一朝一夕之功。
但是即使是谷歌，拿他的整句打字也不是很爽。拼音输入法的整句化，路漫漫其修远兮啊

[ 本帖最后由 fengchun 于 2007-12-13 14:11 编辑 ]

xml00 · 发表于 2007-12-13 13:27:16

“慈善和公益”，只有加加对了，因为词库中有。
“它亟需社会认同”，各家都错。“亟需……认同”，又是隔空对接，都束手无策。
“干嘎”，紫光的词序不合理，是唯一错的。
“国家体育彩票管理中心原法定代表人”，QQ有“中心元”，这样的低频词对于智能组词是不利的。
“会忽视”，加加和搜狗都有，所以组句正确。

目前看来，主要还是语料库的完善问题。隔空对接的算法问题还需要琢磨。

xml00 · 发表于 2007-12-13 13:31:26

原帖由 fengchun 于 2007-12-13 13:08 发表
谷歌有及其强大的语料库在背后支撑，赶上它恐怕非一朝一夕之功。
但是即使是谷歌，拿他的整句打字也不是很爽。拼音输入法的整句化，路漫漫其修远兮啊

没错。如果有人能抽时间对阿门大师的测试资料进行一番梳理，在短期内有所提高还是能做到的。

fengyu29 · 发表于 2007-12-13 15:14:12

准备向开发组要增量智能语料包结合到大词库中,大家再测试一下.

ZXD4G · 发表于 2007-12-17 09:37:00

内部的测试用例是这样产生的：
1.在百十来G的原始语料中，按照万分之一的概率随机抽取出3字以上的词组和句子，结果为91万条。
2.继续以百分之一的概率抽取，得到九千多条。
3.对谷歌、搜狗和V6改进诸版经过这九千多条的测试，发现谷歌正确率为65.x%，搜狗为69.x%，V6-6197是66.x%，不过，这几天的进一步完善，V6-xxxx已经达到72.x%，还有提高的可能性。
4.准备抽取十万条来测试；同时，把智能狂拼也试试，随便把玩中，感觉智能狂拼对“的地得”、“是时使”处理得不错，别家没有它精致。

抽取活动最为关键的是“随机”。

野风 · 发表于 2007-12-17 09:52:33

原帖由 ZXD4G 于 2007-12-17 09:37 发表
内部的测试用例是这样产生的：
1.在百十来G的原始语料中，按照万分之一的概率随机抽取出3字以上的词组和句子，结果为91万条。
2.继续以百分之一的概率抽取，得到九千多条。
3.对谷歌、搜狗和V6改进诸版经过这九千多条的测试，发现谷歌正确率为65.x%，搜狗为69.x%，V6-6197是66.x%，不过，这几天的进一步完善，V6-xxxx已经达到72.x%，还有提高的可能性。
4.准备抽取十万条来测试；同时，把智能狂拼也试试，随便把玩中，感觉智能狂拼对“的地得”、“是时使”处理得不错，别家没有它精致。

抽取活动最为关键的是“随机”。

四哥，你的这个什么v6-xxxx版本，能不能先拿出来让我们也享受一下呢？o(∩_∩)o

ZXD4G · 发表于 2007-12-17 09:58:43

这个达到72.x%正确率的V6-xxxx版，所用到的资料文件较大，有四十多兆，需要压缩，期望压缩到三分之一，理论上可以压到26%，正在努力中，另外，上帖中提到，还要进行更多测试用例的统计，所以，估计还得等些日子。

ZXD4G · 发表于 2007-12-17 10:04:07

分析组词、组句错误的过程中，也能找出一些词汇的缺失，有印象的至少有两个例子：
1.“绑米空间”，词库中要是没有这个词的话，要想组对，几乎不可能
2.“阿底峡尊者”，这个词只有谷歌正确，因为它收录了该词，其它的基本是“阿地下尊者”
于是，在完善智能组词的过程中，词库也能小小地受到些益处。

fengchun · 发表于 2007-12-17 10:20:00

哇，好高深的词汇，从来没有见过。。

谷歌的智能组词用的是隐含马尔可夫模型，不知道v6是啥？

野风 · 发表于 2007-12-17 10:29:38

哈哈！我的胃口被吊得好高啊！

垂涎三尺……

fengchun · 发表于 2007-12-17 17:05:58

72%的准确率。。
不过ahman大师对南方周末的测试结果显示谷歌是最高的。

野风 · 发表于 2007-12-18 10:04:48

估计两者的区别在于：一个是以“南方周末”语料为准，也就是比较流行的语句；一个是以“百十来个G的”的语料中两次“随机”抽样后的语料为准，包含了未必流行的语句。也就是说，在流行用语上，谷歌占先，在广泛用语方面，搜狗占先。纯属个人见解！

xml00 · 发表于 2007-12-18 14:15:39

原帖由野风于 2007-12-18 10:04 发表
估计两者的区别在于：一个是以“南方周末”语料为准，也就是比较流行的语句；一个是以“百十来个G的”的语料中两次“随机”抽样后的语料为准，包含了未必流行的语句。也就是说，在流行用语上，谷歌占先，在广泛用 ...

左版的意思大概就是这样吧，统计数据不包含二、三字词。看看左版的进一步解释如何？

fengyu29 · 发表于 2007-12-18 16:11:07

我很关心新版的系统词库会不会因为语料库的丰富而变得更大,或者新版中的语料库和系统词库是两个概念?希望左总能够回答一下.

ZXD4G · 发表于 2007-12-24 12:33:18

1.咱在上帖中表述的“准确率”统计，确实是按照整个词条或句子是否完全正确来评估的
2.前帖提到的72%，可能有些武断或者乐观得早了些，这是在拥有全部基础资料(几十兆)的情况下，通过一万句随机测试用例得到的，要达到实用、适用，需要在几个方面继续努力：
1) 压缩基础资料，最好控制到10M之内；在此，需要更正以前的错误表述(应该说，那时的认识也是不正确的)，理论可行的压缩率26%，其实，压缩到多少都能做到，这个数值的准确含义是”压缩到26%，准确率下降不多，或几乎不下降“，而且，这个数值是从英文体系的资料压缩得到的；对于中文体系的资料，目前，咱们的努力结果是：压缩到13M，准确率下降了，为68.x%；正在试验多种压缩算法的结合，看看是否能够改进。
2) 那一万句测试用例，应该说仅仅是是”训练集合“，纠正若干错误、提高准确率的同时，也自然地和特定场合产生了密切的关联，很难说在其它场合，也能保持这个准确率，所以，需要在其它的、真正的、再大一些的集合中统计准确率。
3) 从语料中提取的随机测试用例，不少句子的质量不佳，有不完整的，有故意用错字的，组对和组错都说明不了实质问题，基本上是大家都错，对于统计数字的干扰也不小。
4) 严格说来，大多数句子应该是五六字以上，所以，对于三字、四字，甚至五字的，大量的测试其实不是考验组句能力，而是考察词库的容量了，当然，词库丰富了，对于输入体验的增进，也是居功至伟；严格统计组句、组词准确率，应该排除已经是词条的用例。
5) 这几天，对接近10万句的随机用例测试，感觉到谷歌确实在长句子(10字以上)的准确率中占有优势，以前提供的几个数值中，可能短句子比重大，其实是比词库，所以，搜狗比它强，V6经过短期的冲刺，也能超越它，这个现象让人十分喜悦，不过，有些过于喜悦了，还需提高分析质量。

野风 · 发表于 2007-12-24 12:44:08

仍旧期待中……

yiwon · 发表于 2007-12-24 16:03:53

期待中...
在想,如果压缩到13M会是68%.
那是否可以在论坛发布不压缩的呢?
也就是72%的版本

野风 · 发表于 2007-12-24 16:29:22

原帖由 yiwon 于 2007-12-24 16:03 发表
期待中...
在想,如果压缩到13M会是68%.
那是否可以在论坛发布不压缩的呢?
也就是72%的版本

赞成！

xml00 · 发表于 2007-12-26 11:26:20

7字句以上正确率提高了1~6个百分点。
31楼的测试结果大概为超大词库的“结构优化”提供了一些有用的信息。
①长句可以扩充，甚至是大规模扩充；
②短句应保证质量，数量上可能有一个最佳的平衡点，过多或过少可能都不好。二字词、三字词的影响可能更大。一些高重码的音节组合如yi、ji、shi等重码很多时对造词是不利的。

shardineblog · 发表于 2008-1-2 07:24:36

看了这些回复，感觉紫光要增大词库了，希望臃肿的词库不要拖输入法。

ZXD4G · 发表于 2008-1-9 10:28:48

拍一砖吧，个人以为，六七字词以内的，准确率上不了70%的，不叫智能组词，可用性不高，十字左右的，按百分制不能及格的，应该也需要反省了，肯定是模型或程序不对头或者落伍了，需要耐下心来，把基础的功夫做足，准确率自然能提高。

我们的目标定得很高，期望达到85%以上，开发组内部还有95%准确率的声音，貌似吹牛，其实不然，仅从语料数据的中度加工结果，按照科学的方法，已经能够达到70%左右这个指标，咱们心中还有不少路子未能实践，目前只能评感觉来估计，这些机制逐步引入后，一定能够再创辉煌，目前欠缺的只是时间。

这些天潜藏水底，个人主要是干两件事情：
1.客观评测几个拼音输入法的组词组句能力，有三种测试素材：
1) 网络语料随机提取10句
2) 人民日报2005年全部150万句
3) 金庸小说全集87万句
这个工程接近完工，本周末大约可以把结果向大家公示。
2.词库的继续修订，有两种途径：
1) 通过组词组句分析，发现一些暂时不能攻克的词句，以词库形式来改善输入体验
2) 根据字典、词典、网上词库资料等多种素材，丰富词库

在6.1发布之前，词库是增大的趋势，但不会扩容太多，之后，根据新的组词组句能力，要进行适当删减词条，即词库的规模有个小小的摆动周期，目前词库中应该还有不少废词，也应逐步剔除。

fengchun · 发表于 2008-1-9 13:33:42

个人以为，以现在的语言模型来看，智能组词可能7字词比4字词容易

kingdick · 发表于 2008-1-9 20:29:16

感觉测试的文本需要更改一下吧～～人民日报，金庸小说，内容不是大家用紫光输入的内容。我倒是觉得用QQ聊天记录不错～～呵呵

		自动登录	找回密码
密码			注册

简单测试了几个句子

说明、更正与汇报

浏览过的版块