华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 26796|回复: 1
打印 上一主题 下一主题

【我的转换词库拼音校正方法】

[复制链接]
跳转到指定楼层
1
发表于 2013-6-18 15:19:06 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 wangyanhan 于 2013-6-18 15:59 编辑

【我的转换词库拼音校正方法】

“深蓝词库转换V2.0”的功能非常强大,能把搜狗的细胞词库scel、百度的分类词库bdict和QQ的分类词库qpyd等,直接转换成“华宇词库.txt”。转换出来的华宇词库格式见下图(001):


网友们由于各自的需求不同,都有可能需要将其它词库转换成华宇词库,来“为我所用”。

将其它词库转换成“华宇词库.txt”后,最难的一项工作,就是拼音的校正问题了。如果拼音码不正确,网友们用正确的字母键将敲不出那个词条。

现在以搜狗转换出来的《植物词汇大全》为例,介绍一下本人的拼音校正方法。不一定是最先进的方法,放出来交流,也是为了抛砖引玉呵呵!

(一)用“深蓝”转换出来的华宇“植物词汇大全.txt”,词条数27244。如果逐一校对拼音码,那工作量实在是太大了。这时,我们可以利用华宇的词库工具,来缩小我们的拼音码校对量。方法如下:

    1、将华宇“植物词汇大全.txt”拷贝出一个“复件 植物词汇大全.txt”。用“中文记事本cnbook”打开“复件 植物词汇大全.txt”,使用正则表达式:
    查找:\a|\'|\d
    替换:(为空)
    然后用“转换”菜单里的“删除行首空白”和“删除行尾空白”,来清除行首、行末空白。这样,“复件 植物词汇大全.txt”就变成了“纯词条.txt”。
如下例:
阿坝当归
阿柏麻属
阿贝折光计
阿必多
阿波圭鼠
阿尔泰柴胡

    2、清空华宇输入法的用户词库,将“纯词条.txt”导入用户词库。
    这时,华宇输入法会弹出一个《提示信息》菜单,显示“部分词条有错误……”。见下图(002):

    点《提示信息》菜单里的“否”按钮,保存“有歧义词条.txt”(共1089条)。如下例:
# 《华宇拼音输入法》词条检查错误信息
# 当您手工纠正错误后,可将本文件复制回“批量造词”的文本框中,继续导入。
;错误原因:【拼音串】不唯一,有歧义
丁茜属 ding'qian|xi'shu 100000
丁香长管蚜 ding'xiang'chang|zhang'guan'ya 100000
三叶白蔹 san'ye'bai'lian|xian 100000
三棱秆藨草 san'leng'gan'biao|pao'cao 100000
三江藨草 san'jiang'biao|pao'cao 100000

    3、再次将“纯词条.txt”导入用户词库。在弹出的《提示信息》菜单里点“是”,导入了词条26157。见下图(003):

    自“华宇输入法V6”后,开发组对华宇输入法的词库工具进行了很大改进。譬如原“华宇输入法V5”的拼音库文件“hzpy.dat”只有188KB,词库工具“wlimport.exe”只有176KB。而现在“华宇输入法V6”的拼音库文件“hzpy.dat”为522KB,词库工具“BatchWords.exe”为381KB(还有几个配套小文件),可见数据库和功能都大大加强了。
    因此,凡是能被华宇输入法直接导入的词条,一般说拼音码是不会有多大问题的。我们只需把精力放在“有歧义”的(即词库工具不能定夺的)词条拼音码校正上便可。

(二)人工校正有歧义的词条:
    由华宇输入法出示的“有歧义词条.txt”(1089条),形式如下:
丁茜属 ding'qian|xi'shu 100000
    如果我们逐条手动删除不正确的拼音码和分隔号“|”,这个工作量也同样不小!
    我们可以这样推断:既然原搜狗词库“植物词汇大全【官方推荐】.scel”作为一款作品放出,那么原作者肯定也是耗费了不少精力的,我们不能全盘否认源词库的准确性。因此可以共享原搜狗词库作者的劳动成果。
    方法如下:

    1、将“有歧义词条.txt”拷贝出一个“复件 有歧义词条.txt”。用“中文记事本cnbook”打开“复件 有歧义词条.txt”,使用正则表达式:
    查找:\a|\'|\d|\|
    替换:(为空)
    然后用“转换”菜单里的“删除行首空白”和“删除行尾空白”,来清除行首、行末空白。这样,“复件 有歧义词条.txt”就变成了“有歧义纯词条.txt”。如下例:
丁茜属
丁香长管蚜
三叶白蔹
三棱秆藨草
三江藨草

    2、紧接上一步,使用正则表达式:
    查找:(.+)
    替换:\0=◆\0◆
    这样,“有歧义纯词条.txt”就变成了“替换表.txt”。如下例:
丁茜属=◆丁茜属◆
丁香长管蚜=◆丁香长管蚜◆
三叶白蔹=◆三叶白蔹◆
三棱秆藨草=◆三棱秆藨草◆
三江藨草=◆三江藨草◆
    保存“替换表.txt”。

    3、用“中文记事本cnbook”打开“深蓝”转换出来的华宇“植物词汇大全.txt”。
    点“设置”菜单/“自定义替换表”。
    在弹出的《自定义替换表》对话窗口,选中“1 未设置”。
    然后,点对话窗口右侧的“设置”按钮,打开“替换表.txt”。
    这时,对话窗口的情形如下图(004):

   返回到“中文记事本cnbook”工作区(即编辑窗口)。
    点“编辑”菜单/“自定义替换”/“1 替换表”,进行自定义替换。见下图(005):

    自定义替换出来的结果如下图(006):

   选中一个含“◆”的词条。然后点“查找”按钮,在弹出的《查找》对话窗口,点“含字符串的行”按钮。如下图(007):

    这样,在“深蓝”转换出来的华宇“植物词汇大全.txt”中,有歧义的1089个词条就被全部提出来了。见下图(008):


    4、逐条校对,发现有注音错误的词条就手动修改一下。
    在实际操作中,发现需要修改的注音错误其实不多。
    因为不需要逐条清除多余的拼音和“|”号,所以校对速度是比较快的。

    5、最后,把修改完毕的1089个词条,点 “ 查找:◆” ,“ 替换:(为空)”,清除词条中的 “l◆” 字符 ,导入词条到用户词库即可。

    (三)把用户词库中的词条,全部导出重新排序,命名,还可以替换修改一下词频。最后创建新词库。

2
发表于 2013-6-18 19:58:15 | 只看该作者
学习了!谢谢!

点评

1、是在实际操作中悟出的一点小技巧,谈不上学习,还是叫“交流”为妥呵呵。2、我在加加论坛看到了你的头像呢!和华宇的一模一样呵呵!  发表于 2013-6-18 20:56
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2025-12-25 00:06

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表