华宇拼音输入法论坛

标题: 智能组词能否受益于新版的音节解析? [打印本页]

作者: richardfsw    时间: 2012-10-11 19:38
标题: 智能组词能否受益于新版的音节解析?
6.9新版重点强化了特殊音节的解析能力,甚好,难以输出的问题得到了极大的缓解。不过暂时还没安装

我的问题是:新版的解析力的提高,对智能组词有影响么?

举例:智能组词sheng'huo'da'bao'zha,直接出现“生活大爆炸”,正确(因此,我未勾选“智能组词入库”的情况下它也不会进入用户词库)
但如果使用超级简拼,则会是sh'd'b'z,出现“上党梆子”(这是个什么玩意儿啊……)

如果新版能够解析为s'h'd'b'z并智能组词正确,那最好
如果不能,那我觉得,对于词库精简的思路还是不要过于激进,保留一部分长词有助于超级简拼的发挥
作者: wangyanhan    时间: 2012-10-11 20:01
呵呵!我觉得智能组词不入库,不是个好习惯。

每个人的输入习惯都不是一样的——譬如断句。完全依赖词库怎行啊?必须要有个性词条补充。
作者: sunmd    时间: 2012-10-11 20:12
上党梆子是山西省四大梆子之一,流行于山西东南部。享有同蒲剧、晋剧同等历史的文化资格,是上党戏的代表剧种。它在道光年间称为本地土戏,1934年赴省城太原演出时称作上党宫调,1954年定名为上党梆子。上党梆子以演唱梆子腔为主,兼唱昆曲、皮黄、罗罗腔、卷戏,俗称“昆梆罗卷黄”。
作者: richardfsw    时间: 2012-10-11 23:04
wangyanhan 发表于 2012-10-11 20:01
呵呵!我觉得智能组词不入库,不是个好习惯。

每个人的输入习惯都不是一样的——譬如断句。完全依赖词库 ...

其实吧,入库不入库,完全就是个理念的问题

紫光的默认似乎是入库的

后来我听从了fengyu29 版主的建议(似乎是在《紫光大词库完美优化第六版》的说明里面),去掉了这一项的勾选。目的自然是要减慢用户词库的膨胀速度——反正可以智能组词出来,自然就没必要再进词库了。想必这也是风版小词库的精简策略之一

但是除了我帖子当中提到的问题以外,各输入法,紫光、加加的默认设定,包括微软拼音的自学习,似乎都完全不考虑词库“虚胖”的问题。我想理由也很简单:认为词库大一些并不会降低输入效率,反而能够提高日后输入的准确率,宁全宁多毋缺
不过有时可能会把一些手快而误上屏的词加入到用户词库之中
作者: richardfsw    时间: 2012-10-11 23:05
sunmd 发表于 2012-10-11 20:12
上党梆子是山西省四大梆子之一,流行于山西东南部。享有同蒲剧、晋剧同等历史的文化资格,是上党戏的代表剧 ...

我随口一句吐槽院长就解释得这么详尽啊,多谢多谢
作者: krsun    时间: 2012-10-11 23:07
光凭着超级简拼就想让系统能智能组词出来,这也太难为输入法了。
即使用完整拼音也不一定能出正确的或者你想要的词。
对于词输入为主的输入习惯,还是应该注意积累自己的词汇,所以智能组词入库是必选的。这样对于经常输入的词用超级简拼输入,可以明显提高输入的流畅性。
当初不推荐智能组词入库主要是因为用户词库经常崩溃,不希望用户词库膨胀的那么快。现在词库健壮性已经很好了,不需要这么避讳了。

作者: richardfsw    时间: 2012-10-11 23:08
sunmd 发表于 2012-10-11 20:12
上党梆子是山西省四大梆子之一,流行于山西东南部。享有同蒲剧、晋剧同等历史的文化资格,是上党戏的代表剧 ...

嗯?刚刚添加了新词“生活大爆炸”之后,居然只排在第二。“上党梆子”的默认词频还真是有够高的么
作者: krsun    时间: 2012-10-11 23:21
你是直接输入过程中造词的吗?
我刚才这样造词以后是显示在第一位的。
还有上党梆子还有山东梆子也都符合简拼规则,它们与生活大爆炸的解析是不同的,所以把它们显示在前面也没有什么错误。如果此时你选择生活大爆炸,那下次输入时应该就会排在第一位了。
作者: richardfsw    时间: 2012-10-11 23:28
krsun 发表于 2012-10-11 23:21
你是直接输入过程中造词的吗?
我刚才这样造词以后是显示在第一位的。
还有上党梆子还有山东梆子也都符合 ...

嗯,多谢krsun版主回复

主楼说过,这个词是智能组词正确的,所以我用的是词库管理界面的“新词”按钮将其手工添加到用户词库的

倒不是说输入法有错误,只不过上党梆子的默认词频居然高过用户词库的默认词频,有点惊讶而已

我把调频速度设为“慢速”了,所以多打了几次
作者: krsun    时间: 2012-10-12 03:37
所有的词都是以词频为排序依据的,所以并不区分是否为用户词库中的词。
你用造新词的功能造词,估计是用的系统默认词频,所以完全有可能比上党梆子词频低。
当你造词以后输入了一次这个词,下次再输入的时候就会跳到前面去了。

作者: wangyanhan    时间: 2012-10-12 09:37
richardfsw 发表于 2012-10-11 23:04
其实吧,入库不入库,完全就是个理念的问题

紫光的默认似乎是入库的


用户词库是可以人为进行定期整理的。主要是删除用户词库中的错废词,当然,也可以删除自己很少用的冗词。

1、你在第一次整理用户词库后,把这个整理后的用户词库做一个txt备份,譬如“用户词库①”。
2、上十天后,你的用户词库变大了,变成了“用户词库②”。
3、再次整理用户词库时,导出“用户词库②”txt。用    “用户词库②”txt  -  “用户词库①”   ,得差集“用户词库③”。
4、手动整理“用户词库③”,数量不会很大的。
5、最后,清空用户词库,再重新导入  备份“用户词库①”  +  “用户词库③”。

这样,就可以对你的用户词库进行有效管理了。

我知道你是打全拼的,只有在词条比较充足的情况下,打混拼和超级简拼才比较准确。如果没有用户词库辅助,词条不可能达到“比较充足”的状况。







作者: richardfsw    时间: 2012-10-12 12:03
wangyanhan 发表于 2012-10-12 09:37
用户词库是可以人为进行定期整理的。主要是删除用户词库中的错废词,当然,也可以删除自己很少用的冗词 ...

多谢老王~

这里面有三条我要先说明一下:
1、对于词库整理,我个人的态度是要整理,但不能占用太多的时间。事实上,很明显,绝大多数人是不会去整理词库的,因为付出和收益完全不成比例
2、关于用户词库“太大”。我在今年年初的时候,曾经整理过一次用户词库,当时它的规模是1000。即便如此,整个整理过程耗时超过了3小时。当然,那次整理我去除了所有智能组词正确的词,省掉这一步的话能节约不少时间。但总体而言,基于该次的经验,我最多只能接受每年整理一次千词规模的用户词库
老王的用户词库恐怕要高我不止一个数量级吧?我确实无法想像如何去整理如此之大的词库
3、我不仅是打全拼的,而且是打“全”拼的。事实上,我连简拼和超级简拼都都很少使用。一方面是因为肌肉习惯导致这两种打法的击键速度有很大的下降,另一方面也是出于思维连贯性的考虑。当然,词库不充足导致超简正确率下降也是原因之一啦。但即使超简正确率够高,我也未必会经常使用(原因如前所述)。正因为很少使用简拼和超简,我才对gn→ng这样的自动纠错功能比较在意。高速击键的时候这个错误的出现率还是蛮高的


我目前使用的方法是,用户词库每到1000,就导出并整理(同时清空用户词库重新开始积累),然后整理好的txt文件创建为uwl词库,直接加载,不再作为用户词库的一部分

从我今年年初首次整理到现在10个月的时间,新的用户词库共积累新词491个。这个增长速度我还是比较满意的~
作者: kingdick    时间: 2012-10-12 12:08
我的方法比较简单。用户词库上百之后,导出,删减,导入大词库。个人只挂接2个词库,用户词库和大词库。

普通用户不需要参与到词库整理工作中。用户需要的是,能方便地打出需要的词,删除自己不需要的词,按需调整顺序。
作者: wangyanhan    时间: 2012-10-12 14:11
我主用的是加加。
加加用户词库的功能,是自动记录并收录除自定义之外的全部词条,包括系统词条、智能词条和人工造词。所以对于短语派来说,加加的用户词库是增长很快的。今年春节后到目前,我积累的用户词库就是2万多。
另外,加加的用户词库只能导出,不能导入。因此,就只能用删除的办法来整理用户词库。我在11楼介绍的,就是我的加加用户词库整理法。大约每星期整理一次,整理的词条数量在500以内,只要几分钟的时间啊!
作者: richardfsw    时间: 2012-10-13 16:46
wangyanhan 发表于 2012-10-12 14:11
我主用的是加加。
加加用户词库的功能,是自动记录并收录除自定义之外的全部词条,包括系统词条、智能词条 ...

如果是5分钟整理500词的话,算下来平均一个词只有0.6秒诶

看来我以后整理的时候也应该减少无谓的纠结
作者: wangyanhan    时间: 2012-10-13 17:28
本帖最后由 wangyanhan 于 2012-10-13 17:38 编辑

是这样:用最新导出的用户词库txt,和原备份的用户词库txt差集。

差集出来的近500条,我就把它粗略地一浏览。认为没问题的就放行了,发现有明显的错废词条,才打超级简拼弹出这个词条,按"Ctrl+候选序数“键删除。其实在500条中,一般是没有多少错废词条的。当然耗时不会超过10分钟啊!

整理后,重新导出一个最新的用户词库txt备份,和拷贝出来的两个加加用户词库文件”uhwm.bin、uhw.bin“一同存放。
作者: bbc0556    时间: 2012-10-15 10:24
智能组词入库还是不错的,比较体现了用户个人的特征。




欢迎光临 华宇拼音输入法论坛 (http://bbs.pinyin.thunisoft.com/) Powered by Discuz! X3.2