华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 62642|回复: 101
打印 上一主题 下一主题

哪个词库最适合您

  [复制链接]
跳转到指定楼层
1
发表于 2012-3-10 20:35:40 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
现在坛子里的词库不少,好词库也不少。有大词库,中词库,也有小词库。到底哪款词库适合自己?现在有点纠结。每款都试一试,担心词频总在变化,造成不方便。为此,您有什么好建议,不妨说说。
2
发表于 2012-3-10 20:56:50 | 只看该作者
可以把词频调整设置为固定,词频就不会变化了
3
 楼主| 发表于 2012-3-10 21:09:58 | 只看该作者
又学到了一个方法。谢谢!
4
 楼主| 发表于 2012-3-11 09:40:51 | 只看该作者
可是有这么多词库,总是有各自的特点。很想知道……
5
发表于 2012-3-11 09:58:56 | 只看该作者
词库的选择在于自己,要考虑这些因素:

⒈ 必须加一个基础库,这个是核心,在这个基础上,你要清楚你是属于什么打法,是字词派,还是整句派,如果是字词派,可以选择一个较小的词库即可,如 野风31万词库;如果是整句派,那最好选择一个较大的词库,因为较大的词库中有许多连接性词语,可以保证词语的连续输出,如san版的词库。注意,基础词库有一个就可以了,不必多了,多了也没有多大用处。

⒉ 要考虑你自己的职业。再选择一个与你的职业相适合的专业词库。

⒊ 如果你经常要打人名与地名,最好要加一个人名和地名库进去。

⒋ 如果你经常聊天,那最好再加一个聊天语词库,这样可以将常用的聊天术语很快打出来。

这样的组合我想足够了。不必在词库的选择上纠结。能用,够用就行了。紫光论坛上的词库都比较精准,很不错的。
6
发表于 2012-3-11 10:11:14 | 只看该作者
我觉得较小的词库可以选择古陶瓦的17万的词库,体积小反应速度快,短小精悍,加上紫光语言模型的补充,一般办公、聊天足够了。较大的词库可以选择古陶瓦和sanwsw的词库,sanwsw的词库侧重于文史类和输出一些冷僻的词语;古陶瓦的词库适合一般性的场合下使用。
然后根据上面古陶瓦兄的2~4条建议,足可以应付所有的情况了!
不必纠结用哪个词库好这个问题,只要自己用着顺手即可。
7
发表于 2012-3-11 11:12:13 | 只看该作者
自己积累的词库最适合自己。
8
发表于 2012-3-11 11:43:26 | 只看该作者
个人观点:

1、优化过的、精准的基础库,大小方面同意5楼古陶瓦的说法。

虽然我也算是个字词派,但还是觉得习惯于2-3字输入的人,还是应该逐渐过渡到4-6字的短语、短句打法,太长了一旦智能组句出错,修改起来比较麻烦,太短了就无法发挥语言模型的智能性。关于这一点,举个例子来说,词库当中可能“事后”的词频高于“时候”,输入速度快了就容易把后者错输为前者,而且一旦上屏,后台的词频调整可能永远无法将“时候”前置。而如果输入“deshihou”,无论词频谁高,语言模型会自动合成“的时候”,避免出错。当然,这只是个例子,我个人使用的是“d=的”的固顶字设置,智能ABC时代留下的老习惯了

2、如果基础库为了速度选择得比较小,应该再加一个名人词库。如果因为职业的关系经常输入各种不同的姓名(如教师),可以加一个人名词库。一般人交际圈内的姓名可以交给用户词库慢慢积累

3、居住地的地名词库或者综合词库

4、自己专业、职业的词库。这方面紫光尚不够完善,可以从搜狗那边提取

剩下的,还是交给用户词库吧。建议用户词库到达一定规模以后(如1000词)做一次整理并单独导出,创建为uwl词库加载,然后重新积累用户词库。否则用户词库规模太大整理起来就麻烦了。


不过楼主指的应该就是基础库的选择吧?个人倾向于古陶瓦的。够大够规范~~
9
 楼主| 发表于 2012-3-11 11:55:39 | 只看该作者
个人观点:

1、优化过的、精准的基础库,大小方面同意5楼古陶瓦的说法。

虽然我也算是个字词派,但还 ...
richardfsw 发表于 2012-3-11 11:43


谢谢!请教老师,搜狗的专业词库如何引入紫光中使用。
10
发表于 2012-3-11 12:01:32 | 只看该作者
回复 9# 好休闲


    呃……如果紫光确实不提供相关专业的词库,而搜狗有对应的细胞词库的话,可以下载搜狗细胞词库后使用置顶帖中的“深蓝词库换1.7”,把搜狗的词库转换为紫光格式的

PS:“老师”的称呼我可承担不起哈,论坛里野风、古陶瓦等人才是大师~~
叫我Rich即可~
11
 楼主| 发表于 2012-3-11 12:03:30 | 只看该作者
回复  好休闲


    呃……如果紫光确实不提供相关专业的词库,而搜狗有对应的细胞词库的话,可以下载搜 ...
richardfsw 发表于 2012-3-11 12:01



    谢谢!您太谦虚了。
12
 楼主| 发表于 2012-3-11 15:25:45 | 只看该作者
词库的选择在于自己,要考虑这些因素:

⒈ 必须加一个基础库,这个是核心,在这个基础上,你要清楚你是属 ...
古陶瓦 发表于 2012-3-11 09:58


谢谢!很受启发。
13
发表于 2012-3-11 15:29:44 | 只看该作者
2011年以前,找个紫光词库很难。
2012年以后,紫光词库太多,难选
14
 楼主| 发表于 2012-3-11 16:05:45 | 只看该作者
2011年以前,找个紫光词库很难。
2012年以后,紫光词库太多,难选
紫光蓝天 发表于 2012-3-11 15:29



    同感!
15
发表于 2012-3-11 19:27:37 | 只看该作者
今天试用了将近1天的古陶瓦27万的词库,至此,目前紫光论坛的几个主要的系统词库,官方、sanwsw、野风、古陶瓦,都用过了,抛砖引玉,说说我的感觉。
1.从词库的准确角度来看,这个几个词库,都比较准确,错词都已经很少了,使用时很少发现错误。sanwsw的词库,正像其自己所说的那样,越来越偏向于文史类用途,不常用词和冷僻词越来越多,而且重码多,个人觉得离普通用户越来越远;官方、野风和古陶瓦的词库适合一般办公和聊天使用,个人从使用角度,看好古陶瓦的17万的词库,重码少,输入法响应快,古陶瓦27万和野风的31万词库差不多,重码相对于古陶瓦17万的词库多一些,官方的错词还太多,有待于进一步完善(比如:扫乾qian净)。
2.从使用体验角度看,个人喜欢sanwsw、野风和官方的系统词库,这主要是这几个词库的词频较好,这三个词库的词频应该都是出自ZXD4G之手,应该是从50余年人民日报的超大语料中萃取出来的,ZXD4G还真不是吹的。虽然古陶瓦的50万词库的词频重新优化过了,但是词频体验还是不能与前三者相提并论,看来词频的优化不是一朝一夕能改善的。
结论:看好古陶瓦的17万的词库,期待词频的进一步优化,早日达到官方词频的程度;目前继续使用野风系统词库。
16
发表于 2012-3-11 19:51:43 | 只看该作者
紫光王子和我的感受相似,看好野风31万词库和古陶瓦17万词库
17
 楼主| 发表于 2012-3-11 21:27:53 | 只看该作者
今天试用了将近1天的古陶瓦27万的词库,至此,目前紫光论坛的几个主要的系统词库,官方、sanwsw、野风、古陶 ...
紫光王子 发表于 2012-3-11 19:27



    谢谢!
18
发表于 2012-3-12 10:10:52 | 只看该作者
本帖最后由 richardfsw 于 2012-3-12 10:14 编辑
紫光王子和我的感受相似,看好野风31万词库和古陶瓦17万词库
紫光蓝天 发表于 2012-3-11 19:51



    关于小词库响应快的说法我还是保留意见。从个人经历角度看,我觉得加载词库数量的多少不如使用的语言模型的大小对速度的影响大。记得kingdict版主也说过,在输入法智能组词的时候容易出现卡顿,而词库相比短语库的最大不同就是做过索引,响应速度快。因此,究竟让输入法直接从词库中提取词汇比较快,还是CPU参与智能组句实时计算比较快,我觉得不好说。

    说得更明白一些,我认为,使用大词库,输入法智能组词的机会相对较少,但是平均每次从词库里找词的耗时会增加;使用小词库,找词速度会更快,但智能组词的机会更多,消耗在上面的时间也会更多。如何取舍,不能一概而论
19
发表于 2012-3-12 10:17:40 | 只看该作者
你可以分别用古大师的17万和50万做测试,看看哪个快
20
发表于 2012-3-12 11:34:23 | 只看该作者
关于小词库响应快的说法我还是保留意见。从个人经历角度看,我觉得加载词库数量的多少不如使用的 ...
richardfsw 发表于 2012-3-12 10:10


你的这个想法是建立在小词库缺很多词的前提下的。但是一般小词库并没有缺那么多的词而去频繁检索语言模型。一般词库在15万以上,平常用用,就不用频繁检索语言模型了,直接搜索词库就有了。这样就节省了不少时间。当然这个词库首先要符合你的使用习惯(我指的是字词还是短句方式)。
实际上大的词库中有许多词是冗余词,平常并不是每个人都能用得着的,甚至有些词可能你这辈子都用不着!
21
发表于 2012-3-12 11:35:04 | 只看该作者
感觉跟紫光王子相同!
继续使用野风系统词库!
22
发表于 2012-3-12 17:03:54 | 只看该作者
刚才又特意试了一下6.9.0.3版,那个全面整理过的词库。
1.仍就有较多的兼容词,有些兼容词我觉得值得商榷;
2.词频还是一如既往的那么好!
兼容词少的干净词库,目前也只有野风的词库,词频也好,我也死心了,不折腾了,还是继续使用野风的系统词库吧!只希望野风尽快完成全部审校工作!
23
发表于 2012-3-13 07:37:20 | 只看该作者
花了几个小时,看了论坛的几个相关的帖子,并亲身试验后,本人推荐使用野风系统词库!
24
发表于 2012-3-13 10:50:44 | 只看该作者
2011年以前,找个紫光词库很难。
2012年以后,紫光词库太多,难选
紫光蓝天 发表于 2012-3-11 15:29



是啊,所以自己以前用的词库,每次重装也好,换硬盘什么的,其他没备份都无所谓,这个不备份就麻烦了。至少打人名重打一次就累死。加上经常要跟各地各个机构的联系,没有准确的名字怎么行。
25
 楼主| 发表于 2012-3-14 08:33:17 | 只看该作者
花了几个小时,看了论坛的几个相关的帖子,并亲身试验后,本人推荐使用野风系统词库!
lionman 发表于 2012-3-13 07:37



    谢谢!
26
发表于 2012-3-14 19:50:58 | 只看该作者
刚才又特意试了一下6.9.0.3版,那个全面整理过的词库。
1.仍就有较多的兼容词,有些兼容词我觉得值得商榷; ...
樵夫 发表于 2012-3-12 17:03

同意樵夫的看法!
27
发表于 2012-3-15 18:52:41 | 只看该作者
词库中孙院长可能还有其他的考虑。提出的许多建议还是被搁置了,可能有其他的考虑吧。下一步还应该再优化的。
28
 楼主| 发表于 2012-3-17 11:42:20 | 只看该作者
大家的意见都很好,也比较集中。谢谢!
29
发表于 2012-3-18 00:38:48 | 只看该作者
昨天拿到了野风最新版的词库!
30
 楼主| 发表于 2012-3-18 07:59:35 | 只看该作者
昨天拿到了野风最新版的词库!
紫光王子 发表于 2012-3-18 00:38



    在哪里有新版?
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2025-12-24 04:13

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表