Untitled-1.png (7.74 KB, 下载次数: 181)
原帖由 fengchun 于 2007-12-13 13:08 发表
谷歌有及其强大的语料库在背后支撑,赶上它恐怕非一朝一夕之功。
但是即使是谷歌,拿他的整句打字也不是很爽。拼音输入法的整句化,路漫漫其修远兮啊
原帖由 ZXD4G 于 2007-12-17 09:37 发表
内部的测试用例是这样产生的:
1.在百十来G的原始语料中,按照万分之一的概率随机抽取出3字以上的词组和句子,结果为91万条。
2.继续以百分之一的概率抽取,得到九千多条。
3.对谷歌、搜狗和V6改进诸版经过这九千多条的测试,发现谷歌正确率为65.x%,搜狗为69.x%,V6-6197是66.x%,不过,这几天的进一步完善,V6-xxxx已经达到72.x%,还有提高的可能性。
4.准备抽取十万条来测试;同时,把智能狂拼也试试,随便把玩中,感觉智能狂拼对“的地得”、“是时使”处理得不错,别家没有它精致。
抽取活动最为关键的是“随机”。

垂涎三尺……
估计两者的区别在于:一个是以“南方周末”语料为准,也就是比较流行的语句;一个是以“百十来个G的”的语料中两次“随机”抽样后的语料为准,包含了未必流行的语句。也就是说,在流行用语上,谷歌占先,在广泛用语方面,搜狗占先。纯属个人见解! 
原帖由 野风 于 2007-12-18 10:04 发表
估计两者的区别在于:一个是以“南方周末”语料为准,也就是比较流行的语句;一个是以“百十来个G的”的语料中两次“随机”抽样后的语料为准,包含了未必流行的语句。也就是说,在流行用语上,谷歌占先,在广泛用 ...


原帖由 AhMan 于 2008-1-9 12:39 发表
………不能攻克的词句,以词库形式来改善输入体验………
非常同意,就是应该这样做!注意不要收录罕用句,白收录,罕句实际上毫无作用。
难句例句:
反应还不错
高兴地de说道
然后问到我
坐到了旁边
仔细 ...

image002.gif (6.08 KB, 下载次数: 56)

| 欢迎光临 华宇拼音输入法论坛 (http://bbs.pinyin.thunisoft.com/) | Powered by Discuz! X3.2 |