华宇拼音输入法论坛

标题: 有点想法 [打印本页]

作者: kingwoto    时间: 2010-1-13 12:08
标题: 有点想法
最近年底忙了,各部门开始写年总的总结与下你一年度的报告了,我也开始大量帮助同事整理他们使用的搜狗词库啊,QQ词库啊。合并到一起在做成紫光的词库。很累 很苦。
不知道紫光是否可以推出一个字库导入的工具,可以导入其它输入法的词库,同时对重复的词条进行删除。 希望能开发出来。
作者: kingdick    时间: 2010-1-13 12:36
公司全部换用紫光了?呵呵!


应该不可以的,涉及到利益问题。
作者: sunmd    时间: 2010-1-13 13:55
搜狗词库、qq词库是txt文件么?
如果是,则使用ultraedit-32(排序、去重、通过正则替换去掉拼音等),再使用紫光的“批量造词”辅助工具导入成紫光的词库。

使用熟练,则做这些工作应该在10分钟内搞定。不应该特别辛苦。
作者: kingwoto    时间: 2010-1-13 16:02
明白意思了,就是做文字的词库,用辅助工具作出拼音标注。

SUNMD 我还想提出一个建议,就是在批量造词中能否对标注的词语全部移到词库的最下方,这样也好整理了,要不需要一行一行的查收,很麻烦的。
作者: krsun    时间: 2010-1-13 16:36
这个需要等待推出一个比较好的词库维护和整理的工具^_^
作者: fengyu29    时间: 2010-1-13 17:31
我以前用过启程之星的txt词库预处理工具,还不错,速度稍慢点,也不是完全不可忍受.50万左右的大词库,3-5分钟左右就可以完成去拼音和去重复.你可以试试.去掉拼音和和重复词条后,你可以用紫光词库工具的创建词库功能来创建一个词库,然后再将这个词库导出为txt文本,这样就完成了拼音的自动标注了.

启程之星词库预处理.rar

10.5 KB, 下载次数: 644


作者: stwcb2007    时间: 2010-1-13 18:15
原帖由 kingdick 于 2010-1-13 12:36 发表
公司全部换用紫光了?呵呵!


应该不可以的,涉及到利益问题。



晕~~
导入TXT也涉及利益
紫光导出TXT就不涉及利益
无语~
作者: 还是支持紫光    时间: 2010-1-13 18:57
原帖由 stwcb2007 于 2010-1-13 18:15 发表



晕~~
导入TXT也涉及利益
紫光导出TXT就不涉及利益
无语~

这都看不懂,人的意思是紫光不好做成可以导入其它输入法的专有词库。至于txt自然是没问题
作者: stwcb2007    时间: 2010-1-13 21:52
原帖由 还是支持紫光 于 2010-1-13 18:57 发表

这都看不懂,人的意思是紫光不好做成可以导入其它输入法的专有词库。至于txt自然是没问题


兄弟是在灌水么?
想想罢
不是TXT格式的
楼主怎么整理啊
作者: 还是支持紫光    时间: 2010-1-13 22:04
原帖由 stwcb2007 于 2010-1-13 21:52 发表


兄弟是在灌水么?
想想罢
不是TXT格式的
楼主怎么整理啊

怎么弄不用问我,我说的只是2楼可能的意思
作者: kingdick    时间: 2010-1-14 07:44
原帖由 还是支持紫光 于 2010-1-13 22:04 发表

怎么弄不用问我,我说的只是2楼可能的意思



我的2楼就是这个意思,楼主的意思肯定也是直接导入其它输入法的词库而不是通过txt中转一下。
作者: kingdick    时间: 2010-1-14 07:47
原帖由 sunmd 于 2010-1-13 13:55 发表
搜狗词库、qq词库是txt文件么?
如果是,则使用ultraedit-32(排序、去重、通过正则替换去掉拼音等),再使用紫光的“批量造词”辅助工具导入成紫光的词库。

使用熟练,则做这些工作应该在10分钟内搞定。不应该特 ...




好像QQ拼音和搜狗拼音都是只能导出用户词库为txt,自带词库是不可以的。自带词库也不是txt格式。




欢迎光临 华宇拼音输入法论坛 (http://bbs.pinyin.thunisoft.com/) Powered by Discuz! X3.2