华宇拼音输入法论坛

标题: 几个文本词库合并一个词库,怎么去重词? [打印本页]

作者: 觉贤    时间: 2014-1-26 17:41
标题: 几个文本词库合并一个词库,怎么去重词?
本帖最后由 觉贤 于 2014-1-26 18:00 编辑

求解答,几个文本词库合并一个词库,怎么去重词?用什么工具快捷高效,去重,添加,词频,优化。没找到相关帖子,麻烦贴个链接或说一下,如何打造自己高效专属词库,老王快来呀!
作者: bbc0556    时间: 2014-1-27 10:01
给我吧~我帮你去重~~
作者: wangyanhan    时间: 2014-1-27 11:28
今天才看觉贤兄这篇帖子的内容,发现其中有“老王快来呀!”一句,看来不回复不行了呵呵!其实,俺在加加论坛就已经回复了的。

(一)去重复:
    1、如果是紫光词库,先把用户词库清空,然后把几个小词库依次导入到用户词库,输入法是会自动去重复的。
    2、也可以先把几个txt词库先合并,然后用“VU_重复行处理”工具去重复。VU老师“重复行处理”下载页:
加加论坛——
http://bbs.jjol.cn/showthread.php?t=14449
骋东风《求一个正则表达式:把重复的N行都删除》
#19楼:vu

(二)添加词频:
    1、指导思想是用“cnbook”和“TextPro”的《自定义替换表》,用自定义替换法给新词库添加词频。
    2、这需要首先用已有的、词频较好的老词库制作《词频替换表》,然后进行替换。这个操作过程有些复杂,用几句话讲不清楚,只能靠自己慢慢摸索呵呵!

作者: 觉贤    时间: 2014-1-27 13:39
好的,谢谢两位,先自己摸索一下;今年打造一个自己的专属词库,深入了解一下紫光加加的功能。在导入紫光词库的时候,显示有错误,,忽略后,程序崩溃。




欢迎光临 华宇拼音输入法论坛 (http://bbs.pinyin.thunisoft.com/) Powered by Discuz! X3.2