原帖由 ZXD4G 于 2007-12-17 09:37 发表 
内部的测试用例是这样产生的:
1.在百十来G的原始语料中,按照万分之一的概率随机抽取出3字以上的词组和句子,结果为91万条。
2.继续以百分之一的概率抽取,得到九千多条。
3.对谷歌、搜狗和V6改进诸版经过这九千多条的测试,发现谷歌正确率为65.x%,搜狗为69.x%,V6-6197是66.x%,不过,这几天的进一步完善,V6-xxxx已经达到72.x%,还有提高的可能性。
4.准备抽取十万条来测试;同时,把智能狂拼也试试,随便把玩中,感觉智能狂拼对“的地得”、“是时使”处理得不错,别家没有它精致。
抽取活动最为关键的是“随机”。
四哥,你的这个什么v6-xxxx版本,能不能先拿出来让我们也享受一下呢?o(∩_∩)o |