华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
楼主: sanwsw
打印 上一主题 下一主题

紫光词库整理系列工具

[复制链接]
151
发表于 2012-3-15 08:52:39 | 只看该作者
特别想把词库里一些错误的成语删掉
152
 楼主| 发表于 2012-3-15 15:17:04 | 只看该作者
如有错误成语的特别词库(文本),倒也可借助工具快速删除。
153
 楼主| 发表于 2012-3-22 18:11:04 | 只看该作者
本帖最后由 sanwsw 于 2012-3-22 18:12 编辑

sort.exe这款排序工具在Windows 7(x86)会出错。老左的回复指明了解决办法:
  sort和awk、sed、grep、iconv等工具,本为unix/linux操作系统下的著名的文本处理利器,sort.exe、gawk.exe、grep.exe等是从哪些平台迁移到windows平台后的实例,这一族工具和开发环境被叫做CygWin,欲知详情,可上网查阅。

  当sort处理较大文件时,主要算法是外部归并排序,过程中将要产生一些临时文件,而临时文件一般存于临时目录,系统环境变量TEMP、TMP即指向该路径。由
于linux下的环境变量和文件路径格式与windows下有异,而sort依据此风格无法获知系统临时目录,故而需要人工指定,通过-T参数。……加上-T参数指定临时目录后就如意了,具体执行的命令是:

sort -T E:\TEMP -k2 aaa.txt >aaaa.txt

  执行过程中,检测D:\TEMP目录中的文件变化,可以看到若干临时文件产生,总工序完成后临时文件被自动删除。


-T E:\TEMP,指定临时目录;-k2,指定排序列;aaa.txt,表示源文件;>aaaa.txt,改向,指定输出文件名——sanwsw注)
154
发表于 2012-3-22 18:45:27 | 只看该作者
以前用点讯输入法的时候,经常用紫光的12万词库的~~呵呵~~
155
发表于 2012-3-22 18:46:58 | 只看该作者
做个记号。
156
发表于 2012-3-26 10:08:38 | 只看该作者
谢谢分享
157
发表于 2012-4-10 22:40:02 | 只看该作者
还需要回复,唉。
158
发表于 2012-6-7 19:22:48 | 只看该作者
sanwsw老师你好!

下面现象是怎么回事啊?为什么行数正常,有效词条为0?(文本文件里是纯词条,没有拼音和词频)
D:\sys\日常\分词\PanGu_Release_V2.3.1.0\Dictionaries>twlSub D:\sys\日常\分词\Pan
Gu_Release_V2.3.1.0\Dictionaries\Stopword.txt D:\sys\日常\分词\PanGu_Release_V2.
3.1.0\Dictionaries\屏蔽词.TXT D:\sys\日常\分词\PanGu_Release_V2.3.1.0\Dictionari
es\Noname8
文本词库文件#1:D:\sys\日常\分词\PanGu_Release_V2.3.1.0\Dictionaries\Stopword.txt
文本词库文件#2:D:\sys\日常\分词\PanGu_Release_V2.3.1.0\Dictionaries\屏蔽词.TXT
结果保存到文件:D:\sys\日常\分词\PanGu_Release_V2.3.1.0\Dictionaries\Noname8
词库#1的行数:  4761,有效词条数目:     0,装载并预处理耗时:0.03s
词库#2的行数:  1706,有效词条数目:     0,装载并预处理耗时:0.02s
差集词条数目:     0,差集运算耗时:0.00s
保存词库耗时:0.02s

下面采用词库导出的文本文件,却连行数都不正常了
文本词库文件#1:D:\兰洲之光\cfg\紫光系统备份\兰洲俗语词库.txt
文本词库文件#2:D:\sys\日常\分词\PanGu_Release_V2.3.1.0\Dictionaries\屏蔽词.TXT
结果保存到文件:D:\sys\日常\分词\PanGu_Release_V2.3.1.0\Dictionaries\Noname8
词库#1的行数:     2,有效词条数目:     0,装载并预处理耗时:0.00s
E:0 ∷
159
 楼主| 发表于 2012-6-7 22:05:56 | 只看该作者
我是用到那个工具,再去查看帮助文件(我已整理成readme.txt)。

经老左提醒,Windows 7(x86)和Windows XP使用各个工具没有问题。

楼上问题看不明白,^_^^_^。你要达到什么目的?下周稍空,可代为试着处理。
160
发表于 2012-6-7 22:50:10 | 只看该作者
回复 1# sanwsw


sanwsw老师你看:(TXT文件是ANSI类型文件,为什么有效词条数目为0?)
D:\sys\日常\紫光\紫光词库整理工具>twlSub AA.TXT BB.TXT CC.TXT
文本词库文件#1:AA.TXT
文本词库文件#2:BB.TXT
结果保存到文件:CC.TXT
词库#1的行数:     6,有效词条数目:     0,装载并预处理耗时:0.02s
E:0 ∷ 做鬼脸
E:1 ∷ 做梦
E:2 ∷ 做出
E:3 ∷ 偏门
E:4 ∷ 偏离
E:5 ∷ 偏偏
词库#2的行数:     3,有效词条数目:     0,装载并预处理耗时:0.00s
E:0 ∷ 做出
E:1 ∷ 偏门
E:2 ∷ 偏离
差集词条数目:     0,差集运算耗时:0.00s
保存词库耗时:0.00s
161
发表于 2012-6-12 00:47:27 | 只看该作者
凑凑热闹
162
发表于 2012-8-27 09:03:51 | 只看该作者
再凑凑热闹
163
发表于 2012-10-7 02:35:05 | 只看该作者
zhe这些其实就是一个耐心的过程!
164
发表于 2012-10-7 03:28:02 | 只看该作者
不要弄权限啊 论坛本来就人少!
165
发表于 2013-10-4 18:30:32 | 只看该作者
潜水学习,支持一个。。。。。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2025-12-24 10:00

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表