华宇拼音输入法论坛
标题:
几个文本词库合并一个词库,怎么去重词?
[打印本页]
作者:
觉贤
时间:
2014-1-26 17:41
标题:
几个文本词库合并一个词库,怎么去重词?
本帖最后由 觉贤 于 2014-1-26 18:00 编辑
求解答,几个文本词库合并一个词库,怎么去重词?用什么工具快捷高效,去重,添加,词频,优化。没找到相关帖子,麻烦贴个链接或说一下,如何打造自己高效专属词库,老王快来呀!
作者:
bbc0556
时间:
2014-1-27 10:01
给我吧~我帮你去重~~
作者:
wangyanhan
时间:
2014-1-27 11:28
今天才看觉贤兄这篇帖子的内容,发现其中有“老王快来呀!”一句,看来不回复不行了呵呵!其实,俺在加加论坛就已经回复了的。
(一)去重复:
1、如果是紫光词库,先把用户词库清空,然后把几个小词库依次导入到用户词库,输入法是会自动去重复的。
2、也可以先把几个txt词库先合并,然后用“VU_重复行处理”工具去重复。VU老师“重复行处理”下载页:
加加论坛——
http://bbs.jjol.cn/showthread.php?t=14449
骋东风《求一个正则表达式:把重复的N行都删除》
#19楼:vu
(二)添加词频:
1、指导思想是用“cnbook”和“TextPro”的《自定义替换表》,用自定义替换法给新词库添加词频。
2、这需要首先用已有的、词频较好的老词库制作《词频替换表》,然后进行替换。这个操作过程有些复杂,用几句话讲不清楚,只能靠自己慢慢摸索呵呵!
作者:
觉贤
时间:
2014-1-27 13:39
好的,谢谢两位,先自己摸索一下;今年打造一个自己的专属词库,深入了解一下紫光加加的功能。在导入紫光词库的时候,显示有错误,,忽略后,程序崩溃。
欢迎光临 华宇拼音输入法论坛 (http://bbs.pinyin.thunisoft.com/)
Powered by Discuz! X3.2