华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 21809|回复: 14
打印 上一主题 下一主题

想了解一下紫光选用词库的顺序对输出词频有什么影响

[复制链接]
跳转到指定楼层
1
发表于 2012-10-7 11:03:46 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 cenfit 于 2012-10-7 11:05 编辑

1)想了解一下紫光选用词库的顺序对输出词频有什么影响,是否存在优先级?例如,用户词库放在最上面是否有助于打字的流畅性和首位命中率?
2)紫光默认语言模型库是否有单独文件包,想保存备用一份。


谢谢!
2
发表于 2012-10-7 11:06:57 | 只看该作者
用户词库必在最上面,无法下调。
候选词是根据各词库词频大小排序,词库排序不影响候选词先后。
重复词条自动去重,以词频高者为准。
3
发表于 2012-10-7 11:36:53 | 只看该作者
词库排序对候选排序的影响,貌似有过争议

默认的语言模型路径为:C:\ProgramData\unispim6\wordlib\bigram.dat
(Win7系统)
4
 楼主| 发表于 2012-10-7 11:40:12 | 只看该作者
本帖最后由 cenfit 于 2012-10-7 11:43 编辑

谢谢sanwsw。
但是,我还是有一点儿不明白。
比如,我选用风版17万,你的7.4,系统默认地名词库,假如这三个词库中都有“北京”这个词语,是否以三个词库中该词最靠前的为准,然后屏蔽另外两个词库中的这两个词?例如,“北京”在三个词库在txt中显示的行数分别为10, 15, 20, 则选中10对应词库中的“北京”,屏蔽另外两个词库中的“北京”?
5
 楼主| 发表于 2012-10-7 11:44:18 | 只看该作者
词库排序对候选排序的影响,貌似有过争议

默认的语言模型路径为:C:\ProgramData\unispim6\wordlib\bigr ...
richardfsw 发表于 2012-10-7 11:36

=====
是的,路径我知道。
不过,如果用大语言模型库替换后,它就不在这个路径中了。
我是想保存备份一份。
6
发表于 2012-10-7 11:55:48 | 只看该作者
=====
是的,路径我知道。
不过,如果用大语言模型库替换后,它就不在这个路径中了。
我是想保存备份一 ...
cenfit 发表于 2012-10-7 11:44



    我在替换之前就备份了^_^

san管的意思,应该是以各词库中该词词频最高的那个为准。各个候选词之间只考虑词频,不考虑词库排序和行数


刚又去看了一下,除了kingdick版主认为词库排序会影响候选排序以外,其他人多认为,仅有词频影响最终的排序结果

参见4-8楼:http://bbs.unispim.com/viewthrea ... amp;page=1#pid99971
7
 楼主| 发表于 2012-10-7 12:01:11 | 只看该作者
感谢。
8
发表于 2012-10-7 12:58:14 | 只看该作者
cenfit兄,这里是一个输入法标配的语言模型文件,请查收。

bigram.zip

9.02 MB, 下载次数: 618

9
 楼主| 发表于 2012-10-7 14:16:41 | 只看该作者
感谢风管,刚吃完饭,下载了。
10
发表于 2012-10-7 17:05:20 | 只看该作者
本帖最后由 kingdick 于 2012-10-7 17:06 编辑

回复 6# richardfsw


    刚刚试了一下,sanwsw的说法是对的~那么,那几个按钮就是多余了——如果不影响词条的排序,那么调整词库的上下次序就没有意义了。
11
发表于 2012-10-8 12:21:56 | 只看该作者
看来调整词库顺序只是为了便于查看选择了那些词库。对输入没有什么实质意义。
12
 楼主| 发表于 2012-10-28 11:56:27 | 只看该作者
今天又想了一下,如果我选用两个词库,两个词库都比较喜欢,词条数量大抵相当,将它们同时添加后,还是应该让上下顺序影响一下它们结合后的词序,毕竟两个词库侧重点不同,词序和词条也不一样。
不过,这样是否影响翻译速度和输入体验呢?

点评

但是这样的话就会出现上面词库的低频词和下面词库的高频词如何排序的问题,处理逻辑就复杂化了,而且意义不是太大  发表于 2012-10-28 12:00
13
发表于 2012-10-28 11:58:46 | 只看该作者
不应该用两个系统词库,如果两个词库词频不同,将造成换乱
14
发表于 2012-10-28 12:08:21 | 只看该作者
本帖最后由 wangyanhan 于 2012-10-28 12:36 编辑
cenfit 发表于 2012-10-28 11:56
今天又想了一下,如果我选用两个词库,两个词库都比较喜欢,词条数量大抵相当,将它们同时添加后,还是应该 ...

词库的词频数据,这是一个初始数据。

勾选词频、字频快速调整后,如果你始终用相同的拼音串,这个拼音串所对应的词条词频,是在随时变化的。

紫光我用的不多,发现叠加使用综合词库(总词条数120万以上,肯定重复词条多多),对响应速度没多大影响啊!你自己亲自一试,就知道了。
15
 楼主| 发表于 2012-10-28 12:10:11 | 只看该作者
谢谢两位,明白了。
如果第2个词库的“高频词”(序号10)在第1个词库属于“低频词”(序号100)时,在混合词库中,这个词相对第1个词库的词频就会提前,影响了反应速度。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2025-12-24 17:01

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表