华宇拼音输入法论坛

标题: 关于用户词库 [打印本页]

作者: famain    时间: 2014-1-13 10:34
标题: 关于用户词库
我的华宇输入法用户词库已经积累了2万多词条,它与选用的词库相比,优先级如何?有没有人清空用户词库的?
作者: 野风    时间: 2014-1-13 12:36
用户词库是第一位的。

作者: wangyanhan    时间: 2014-1-13 13:57
如果要对用户词库进行有序管理,“导入”、“导出”和“清空”用户词库的功能都是需要的。

譬如说吧:

1、你原先有整理好了的用户词库1000条,需要导出成txt词库作备份,名称为“用户词库1000条.txt”。

2、过了一段时间后,你的用户词库积累到了1200条。就可将这1200条用户词库导出,用张文焕的“词库整理”工具,用现在的1200条删除备份的“用户词库1000条.txt”,差集结果是200条,你整理这200条就行了。

3、人工整理时,在这200条中删除了错废词条30条,剩下170条。

4、最后清空积累的1200条,重新导入备份的“用户词库1000条.txt”,再接着导入人工整理后的词条170条。这就是你的新用户词库了。

5、将这1170条新用户词库导出做备份,名称为“用户词库1170条.txt”。……

如上周而复始呵呵!

作者: famain    时间: 2014-1-13 15:17
谢谢两位!
作者: Loquat-Honey    时间: 2014-1-13 15:40
提示: 作者被禁止或删除 内容自动屏蔽
作者: richardfsw    时间: 2014-1-13 22:10
wangyanhan 发表于 2014-1-13 13:57
如果要对用户词库进行有序管理,“导入”、“导出”和“清空”用户词库的功能都是需要的。

譬如说吧:

其实每次整理后重新导入前都清空的话,也就不需要求差集的操作了~
作者: wangyanhan    时间: 2014-1-14 08:40
richardfsw 发表于 2014-1-13 22:10
其实每次整理后重新导入前都清空的话,也就不需要求差集的操作了~

richardfsw兄是这样的:

还是以俺在3楼举的例子作进一步说明——

1、因为原先的“用户词库1000条.txt”,是此前整理好了的用户词库备份,所以就没有必要再作重复整理了。

2、在原先1000条用户词库的基础上,新增200条后,就变成了1200条。如果你不求差集,就会整理1200条。而求了差集呢?就只整理200条了呵呵!


作者: richardfsw    时间: 2014-1-14 19:43
wangyanhan 发表于 2014-1-14 08:40
richardfsw兄是这样的:

还是以俺在3楼举的例子作进一步说明——

老王兄:
可能我说的不是很明白,因为我用了一个功能——创建词库

也就是说,我一般是把整理好的词库创建为uwl词库文件单独加载的,而用户词库则是整理完成后清空重新积累

等下一次整理的时候,再把老的uwl词库文件导出为txt后进行合并,重新创建uwl词库


作者: wangyanhan    时间: 2014-1-14 22:33
richardfsw 发表于 2014-1-14 19:43
老王兄:
可能我说的不是很明白,因为我用了一个功能——创建词库

殊途同归呵呵!
作者: krsun    时间: 2014-1-16 09:56
http://bbs.unispim.com/forum.php?mod=viewthread&tid=671
这个是我整理用户词库的帖子,希望对楼主有帮助。
作者: krsun    时间: 2014-1-16 10:08
我对紫光用户词库的理解是它仅仅是个临时词库,用户在输入过程中也仅仅只能对这一个词库的内容产生影响。由于 这个词库需要频繁读取和更新内容,也许由于一些意外因素导致出现错误。最近我用紫光打词时经常会遇到崩溃问题,但是输入短语没有问题。然后我把用户词库导出,然后清空,然后再导入,此时紫光词库工具提示导入的词库有问题,选择NO,将打开一个log文档用来查看发生了那些问题,发现里面全是乱码。之前的操作,紫光已经将正确的词库导入了用户词库,崩溃问题解决。至于发生问题的乱码,我就无能为力了。
作者: krsun    时间: 2014-1-16 10:11
所以还是建议楼主有时间可以象我10楼连接的帖子那样对自己的词库进行分类整理。这样比较便于排查错词和误造词。
作者: richardfsw    时间: 2014-1-16 19:18
krsun 发表于 2014-1-16 10:11
所以还是建议楼主有时间可以象我10楼连接的帖子那样对自己的词库进行分类整理。这样比较便于排查错词和误造 ...

怎么说呢,虽然我看到用户词库大了也会去整理一下,但是我觉得这种思路其实已经快要淘汰了。

这种技术的概括起来就是:本身很好很有条理,设定了一个较为完美的最终目标,但是实现这个目标却需要用户自己付出较多的劳动或者学习成本。与之类似的产品有TC和RSS

不可否认,其解决方案本身还是不错的,确实能实现更好的效果。比如整理词库可以减少错词进而减少日后输入过程中出现错别字和废词的可能性,分门别类可以让整个结构一目了然,很有条理
但我觉得,这种对用户要求过高的实现思路并不是未来的技术发展方向

对于普通小白用户来说,并不是非常需要这种“强大”,他们要的仅仅是“好用”,同时不愿意为之付出代价。


嘛,闲来无事,以上内容就请看过算过吧~
作者: wangyanhan    时间: 2014-1-16 19:32
本帖最后由 wangyanhan 于 2014-1-16 19:36 编辑

俺是个懒人,主要是删除用户词库中的几个错废词呵呵!

再就是删除一些智能组词的长句,觉得这些长句放在用户词库中,实际上组词频率不高。
作者: famain    时间: 2014-1-19 14:52
谢谢各位。对我而言,或许是导出用户词库,删除一些错词和不太常用的智能组词,清空再导入比较实际,太复杂的不会了。
再次感谢各位的热心答复!
作者: richardfsw    时间: 2014-1-23 12:24
krsun 发表于 2014-1-16 10:11
所以还是建议楼主有时间可以象我10楼连接的帖子那样对自己的词库进行分类整理。这样比较便于排查错词和误造 ...

嗯,其实对于小白来说,云还真是傻瓜化的优秀解决方案呢

这么说吧,大部分人其实连备份用户词库的意识都不会有,剩下的人当中大部分不会去整理

而会整理甚至分类整理自己词库的,恐怕是少之又少了

其实分类这事儿,应该输入法官方去做,并且做好智能化的识别和引导。比如在第一次安装完成后,询问用户的行业和所在地区,然后下载对应的词库安装。相比直接放大系统词库,应该会更有针对性
不过要求细胞词库系统足够完善就是了
作者: famain    时间: 2014-1-23 21:50
Krsun: 一个更好的方法是重新创建一个永久词库,每次你导出用户词库后,把你处理过的词导入到这个永久词库.然后清空你的用户词库.这样以后每次你在清理用户词库时都只会面对比较少量的词条.所谓的用户词库只是个临时词库。

感觉这个方法不错,谢谢。

作者: renkai    时间: 2014-1-24 14:36
呵呵 打字我认为有华宇拼音就够了。
作者: bbc0556    时间: 2014-2-7 09:48
wangyanhan 发表于 2014-1-13 13:57
如果要对用户词库进行有序管理,“导入”、“导出”和“清空”用户词库的功能都是需要的。

譬如说吧:

呵呵,描述的很详细~
不过用起来相当的累啊。。。。




欢迎光临 华宇拼音输入法论坛 (http://bbs.pinyin.thunisoft.com/) Powered by Discuz! X3.2