华宇拼音输入法论坛

标题: 再报一个智能组词的错误 [打印本页]

作者: 岳家军    时间: 2008-7-29 16:50
标题: 再报一个智能组词的错误
其实错误不止这一个,因为任何输入法都不可能全部正确。但是这个错误比较低级,请版主告知开发组,务必在正式版出来前改善,那怕直接就把这个词加进去。
我刚才和一个武汉的网友聊天,问:你们那里现在还热吗?
我是断开打的:你们那里现在//还热吗?
结果发现:“还热吗?”出来的是“还热码”,然后把句子打全结果是“你们那里现在还热码”。用25兆语料库。
还热吗和你们那里现在还热吗?是比较常见的聊天语言。其实在生活中也会出来一句“还热吗”,想想看是不是这样?
版主务必要告知开发组,正式版这个错词一定要干掉。

[ 本帖最后由 岳家军 于 2008-7-29 16:56 编辑 ]
作者: krsun    时间: 2008-7-29 17:54
确实是这样,我的是best。
作者: 岳家军    时间: 2008-7-29 17:56
原帖由 krsun 于 2008-7-29 17:54 发表
确实是这样,我的是best。

汗!80兆的语料库还是一样啊
作者: michsun    时间: 2008-7-29 21:26
果然如此,不过修正一次后就可以了!
作者: 岳家军    时间: 2008-7-29 21:28
原帖由 michsun 于 2008-7-29 21:26 发表
果然如此,不过修正一次后就可以了!

这叫记忆吧?现在任何主流输入法都能做到这点。所以不能靠记忆完成任务,如果新手用了一下发现这样的句子紫光都不能打对(之前的帖子我也举了几个例子),而别的输入法能对……。
所以既然发现了还是改正以后再发布。
作者: 岳家军    时间: 2008-7-31 17:34
自从我出这个帖子后,就没有看见版主露过面。
作者: ZXD4G    时间: 2008-7-31 18:38
已经收悉此问题,并联想到“还热吧”,也不能正确。

但此问题根源较深,需要从分词词典的修订和完善入手,继而重新对海量原始语料分词,最后才能形成新的数据模型文件,短期内不敢动此干戈,徐图改进吧。

欢迎继续在此报告组句的错误。
作者: 岳家军    时间: 2008-8-1 10:36
有人挑拨和也是有人挑拨,搜狗和加加都对了
紫光出的是:“有人调拨” 和“也是由人调拨”。虽然好像没有错,但是从常用的角度来说,不应该出。
作者: krsun    时间: 2008-8-1 12:32
我的可以组词的
best
作者: 岳家军    时间: 2008-8-1 16:33
“算法好”出来的是“算法号”用25兆语料库。

[ 本帖最后由 岳家军 于 2008-8-1 18:04 编辑 ]
作者: sanwsw    时间: 2008-8-2 10:09
原帖由 岳家军 于 2008-8-1 10:36 发表
有人挑拨和也是有人挑拨,搜狗和加加都对了
紫光出的是:“有人调拨” 和“也是由人调拨”。虽然好像没有错,但是从常用的角度来说,不应该出。


没你所述现象。选用最大号的语言模型库。

估计你所用词库中有错词。“挑拨”音tiao'bo,“调拨”音diao'bo。词库中有“调拨 tiao'bo”词条,才有你的现象吧?

[ 本帖最后由 sanwsw 于 2008-8-2 10:18 编辑 ]
作者: 岳家军    时间: 2008-8-2 10:55
原帖由 sanwsw 于 2008-8-2 10:09 发表


没你所述现象。选用最大号的语言模型库。

估计你所用词库中有错词。“挑拨”音tiao'bo,“调拨”音diao'bo。词库中有“调拨 tiao'bo”词条,才有你的现象吧?

别忘了,有废词也是紫光标配的。因为紫光的用户词库不参与智能组词的。
我用的是25兆语料库,请用标配语料库的网友测试一下。
作者: 岳家军    时间: 2008-8-2 10:56
原帖由 sanwsw 于 2008-8-2 10:09 发表


没你所述现象。选用最大号的语言模型库。

估计你所用词库中有错词。“挑拨”音tiao'bo,“调拨”音diao'bo。词库中有“调拨 tiao'bo”词条,才有你的现象吧?

刚才看了一下就是搜狗tiao bo也有“调拨”这个词,不是废词或者错词。
作者: 岳家军    时间: 2008-8-2 12:35
“动态词频”这个词在输入法界应该常用了。但是紫光没有,而且紫光也不能正确组出来。
作者: 步虚    时间: 2008-8-2 12:44
“动态词频”,我这里一敲就出来了。
作者: 岳家军    时间: 2008-8-2 13:25
原帖由 步虚 于 2008-8-2 12:44 发表
“动态词频”,我这里一敲就出来了。

可能用的词库不同吧,我是标配的词库所以没有这个词,智能组词是“动态次品”25兆语料库
是不是请那位用标配的语料库和词库试试?
作者: 岳家军    时间: 2008-8-2 13:47
“刚试过”这个智能组词,搜狗和加加正确。紫光出的是:港市国
作者: sock    时间: 2008-8-2 22:10
药名:司米安simian-打出来的是四面
作者: 步虚    时间: 2008-8-2 22:46
“刚试过”,我这里也是一敲就出来了。
与所用词库肯定没有关系,因为词条的颜色表明是智能组词(包括上面的那个“动态词频”词条)。不用词库,也能得出同样的结果。
作者: 步虚    时间: 2008-8-2 22:46
司米安:看来,即使勾选了“特殊解析拼音”,也必须用 ‘ 隔离simi'an 才能出来“司米安”。
作者: 步虚    时间: 2008-8-2 22:49
好奇,试了一下加加。“动态词频”、“刚试过”都能打出来。但词条的颜色表明“动态词频”是词库已有的词条。“刚试过”则是智能组词。不用词库,加加得出的是“动态次品”,而不是“动态词频”。
作者: 岳家军    时间: 2008-8-3 09:11
原帖由 步虚 于 2008-8-2 22:46 发表
“刚试过”,我这里也是一敲就出来了。
与所用词库肯定没有关系,因为词条的颜色表明是智能组词(包括上面的那个“动态词频”词条)。不用词库,也能得出同样的结果。

请用标配语料库,就像‘你貌似”如果用标配语料库出来大就是“你茅斯”,25m也是,但是50m就行了
作者: 岳家军    时间: 2008-8-3 16:00
想法单纯一点好----紫光出来的是:想法单纯一点号
作者: krsun    时间: 2008-8-3 20:55
原帖由 岳家军 于 2008-8-3 16:00 发表
想法单纯一点好----紫光出来的是:想法单纯一点号

我的是默认12M的
可以正确组出
作者: 岳家军    时间: 2008-8-3 21:15
原帖由 krsun 于 2008-8-3 20:55 发表

我的是默认12M的
可以正确组出

我替换了12兆语料库,正确了。晕倒!是不是大语料库一直没有优化过?

[ 本帖最后由 岳家军 于 2008-8-3 21:20 编辑 ]
作者: sanwsw    时间: 2008-8-3 23:35
最高级语言模型库,一次成功。

Snap1.png (14.03 KB, 下载次数: 241)

Snap1.png

作者: 野风    时间: 2008-8-4 14:52
最大语言模型库,一次正确!

作者: 岳家军    时间: 2008-8-5 11:32
我笑某人太无聊-----------紫光出来的是:我校某人太无聊。25兆语料库。
也不能说错了,但貌似不是很常用。
作者: jinyt    时间: 2008-8-6 14:10
其实,没必要过于苛求每一个句子都不选字、词,错词、句可以通过快捷键临时删除,没有的选择一遍以后就记忆了,我觉得,目前清华紫光拼音的准确率应该是首屈一指了,当然,还要继续加油,我相信紫光拼音输入法!
作者: 岳家军    时间: 2008-8-7 18:52
好的功能-----紫光出的是“号的功能”
作者: krsun    时间: 2008-8-8 15:12
智能组词是系统根据语言模型自动组合出来的词,它们不在系统词库中也不在用户词库中,所以也谈不到删除。
作者: jinyt    时间: 2008-8-11 00:48
原帖由 AhMan 于 2008-8-10 13:06 发表
括号内的是最大语言模型所组合的结果。

的比重(的币种)
一起为(以期为)
实际是(世纪时)
好管理(号管理)
曾参与(层参与)
称作是(乘坐时)
黑砖窑(黑转腰)
谁干的(谁敢的)
提要求(题要求) ...



          建议大家在使用智能拼音输入法的时候,要学会断句,断句要尽量符合中文语言的结构!断句不合理,不如直接输入长句,准确率还搞一些!
作者: 岳家军    时间: 2008-8-11 10:29
原帖由 AhMan 于 2008-8-10 13:06 发表
括号内的是最大语言模型所组合的结果。

的比重(的币种)
一起为(以期为)
实际是(世纪时)
好管理(号管理)
曾参与(层参与)
称作是(乘坐时)
黑砖窑(黑转腰)
谁干的(谁敢的)
提要求(题要求) ...

虽然是三个字,但是也要意思完整。有些如“提要求”“谁干的”就行。
有些如“的比重”“回首这”怎么能拿出来?
作者: 岳家军    时间: 2008-8-11 22:12
千古奇闻--------紫光出的是“千古气温”
作者: 野风    时间: 2008-9-10 15:27
最大语言模型库(等重装系统时,再试试标准的):


[ 本帖最后由 野风 于 2008-9-10 15:46 编辑 ]
作者: 岳家军    时间: 2008-9-24 00:35
原帖由 野风 于 2008-9-10 15:27 发表
最大语言模型库(等重装系统时,再试试标准的):
1594

用标配试了怎么样?
作者: 野风    时间: 2008-9-24 07:34
诶呦!不好意思,忘了这码事了!
作者: 野风    时间: 2008-9-25 16:14
标配输出的的确是“千古气温”!




加载成语词库后正确!


使用最大语言模型后,无需加载成语词库也正确:


深红的字表示智能组词,浅红的表示是词库中的词。

[ 本帖最后由 野风 于 2008-9-25 16:30 编辑 ]
作者: 岳家军    时间: 2008-9-29 16:29
看来我没有报错,不过最近一段时间我没有怎么用紫光了,主要原因就是那个僵尸条,很烦人,希望下一版紫光能够解决。




欢迎光临 华宇拼音输入法论坛 (http://bbs.pinyin.thunisoft.com/) Powered by Discuz! X3.2