华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 47046|回复: 33
打印 上一主题 下一主题

紫光赶紧更新一下语言模型或者主词典吧

[复制链接]
跳转到指定楼层
1
发表于 2014-2-5 10:43:45 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
早上随便打个字,“haokandianying”,这个常用词在其他输入法中都是能够正确命中的。
紫光只能命中“号看电影”。。。。。惨淡啊。。。。
虽然很喜欢紫光,但是紫光的潮流功能的确落后了。。。。
开发组赶紧更新啊。。。。
2
发表于 2014-2-5 12:20:12 | 只看该作者

真的啊!俺的加加、紫光中,都没有这个现成词条。似乎加加智能成功了呵呵!




3
发表于 2014-2-5 13:21:13 | 只看该作者
能够智能组词成功啊,啥情况?

4
发表于 2014-2-5 13:52:50 | 只看该作者
本帖最后由 wangyanhan 于 2014-2-5 14:00 编辑
ljdqe 发表于 2014-2-5 13:21
能够智能组词成功啊,啥情况?



俺一直是主用加加的,所以对紫光的短语库等方面下功夫多,对词库反而没有着意摆弄,用的是官方系统词库和语料库。L版呢?

加加俺用的也是官方语料库,不过系统词库配的大一些——240多万。

按理说,“ 好看、 电影” 都是较高频的词条,应该是都可以智能成功的……
5
发表于 2014-2-5 14:14:12 | 只看该作者
wangyanhan 发表于 2014-2-5 13:52
俺一直是主用加加的,所以对紫光的短语库等方面下功夫多,对词库反而没有 ...

从6.8版以后,就没再用其他词库了,只是使用系统词库,短语库当然是系统的外加自己。
不过语言模型使用的是最大的那个了,反正现在的硬件再差也差不多那里去
6
发表于 2014-2-5 17:12:23 | 只看该作者
顺利智能组词。楼主更新版本再试试看。
7
发表于 2014-2-5 18:03:26 | 只看该作者
sanwsw 发表于 2014-2-5 17:12
顺利智能组词。楼主更新版本再试试看。


俺用的是 “6.9.0.22”。对比了一下词频,官方 “ 好看 ” 的词频比戴老师紫光词库的词频高,可戴老师顺利智能了,俺却不成呵呵!


8
 楼主| 发表于 2014-2-5 23:14:52 | 只看该作者
ljdqe 发表于 2014-2-5 13:21
能够智能组词成功啊,啥情况?

确定不是用户词?
我就是下载官网的版本,打不出这个词条。
语言模型不行了啊

点评

额,从截图上应该看得出是智能组词出来的啊。估计是因为我用的是最大的那个语言模型  发表于 2014-2-6 00:12
9
 楼主| 发表于 2014-2-5 23:15:41 | 只看该作者
wangyanhan 发表于 2014-2-5 13:52
俺一直是主用加加的,所以对紫光的短语库等方面下功夫多,对词库反而没有 ...

紫光官方版本确实只能出来“号看电影”
10
 楼主| 发表于 2014-2-5 23:17:17 | 只看该作者
ljdqe 发表于 2014-2-5 14:14
从6.8版以后,就没再用其他词库了,只是使用系统词库,短语库当然是系统的外加自己。
不过语言模型使用的 ...

官方原版的语言模型真的组不出来这个词条。
紫光的语言模型得好好的优化一下。
头像被屏蔽
11
发表于 2014-2-6 08:06:54 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
12
发表于 2014-2-6 09:22:43 | 只看该作者
记得语言模型的更新,12年的时候论坛上就已经有人在提了
可能是工作量比较大吧……

不过作为一个字词派,对我的影响倒不是很大,我更依赖用户词库而不是智能组词
13
发表于 2014-2-6 11:11:03 | 只看该作者
官方的语言模型有三个,分别是gooddat、welldat和bestdat。
其中gooddat是标配的,如果觉得gooddat不能满足使用的话,可以使用welldat或者是bestdat。
下载地址:http://bbs.unispim.com/forum.php?mod=viewthread&tid=2697
14
发表于 2014-2-6 12:48:22 | 只看该作者
richardfsw 发表于 2014-2-6 09:22
记得语言模型的更新,12年的时候论坛上就已经有人在提了
可能是工作量比较大吧……


对于楼主的问题,俺只不过是在测试、探讨而已。

俺虽然近于短语输入派,但实际中和 richardfsw 兄的操作是很相似的,主要依赖用户词库……

之所以一直主用加加,就是因为加加的辅助码强大,在人工造词时筛选快。至于智能嘛!能智能则智能,不能智能就随即造呵呵!

点评

嗯。对智能组词和整句输入有先天的不信任感~~  发表于 2014-2-6 13:03
15
发表于 2014-2-6 13:04:22 | 只看该作者
野风 发表于 2014-2-6 11:11
官方的语言模型有三个,分别是gooddat、welldat和bestdat。
其中gooddat是标配的,如果觉得gooddat不能满足 ...

“标配”一说不妥吧?

自带的语言模型库是11.8MB的,而gooddate有24.5MB

点评

如果机子不是太烂,推荐用bestdat  发表于 2014-2-6 15:02
16
发表于 2014-2-6 19:07:41 | 只看该作者
ljdqe 发表于 2014-2-5 14:14
从6.8版以后,就没再用其他词库了,只是使用系统词库,短语库当然是系统的外加自己。
不过语言模型使用的 ...

关于语言模型的选择嘛,本来我也是这么想的

但是以我目前的电脑(2010年Y450,T6600,2G,GT240M)来说,bestdat和自带文件相比,有明显区别

特别是用惯了bestdat之后重装系统新装紫光的时候
17
 楼主| 发表于 2014-2-6 19:12:41 | 只看该作者
Loquat-Honey 发表于 2014-2-6 08:06
词语模型确实跟不上潮流,很多组词规则不太合理。但是不能说没有效果,犹如一台陈旧但没废弃的机器,有时候 ...

官方自带的语言模型确实很糟糕。
语言模型决定了词库交合的准确性。
老是依靠大量的词库去支撑准确性是不靠谱的。
语言模型的改进其实并没有那么难,只要抓取最新最近的大量语料,花点时间训练一下还是可以的。
相信紫光的语言模型的训练算法应该已经成熟了,其实就是更新一下语料重新来一次就行。
官方自带的实在是太糟糕了。。。
18
发表于 2014-2-6 19:21:50 | 只看该作者
本帖最后由 wangyanhan 于 2014-2-6 19:24 编辑

语料库适当的大点是可以的,但它们的效率并非呈线性函数。

机子能不能拖动当然是要考虑的因素,但俺觉得还有一个因素,就是太大了应用其实有限,而更多的是冗积呵呵!
19
 楼主| 发表于 2014-2-6 20:56:16 | 只看该作者
wangyanhan 发表于 2014-2-6 19:21
语料库适当的大点是可以的,但它们的效率并非呈线性函数。

机子能不能拖动当然是要考虑的因素,但俺觉得 ...

非常赞成。
语言模型其实越大越好,但是越大性能会越糟糕。
词库并非越大越好,词库太大会造成候选项过多,排序便成了很大的问题。

点评

你的观点?语言模型是不是越大越好?  发表于 2014-2-7 18:38
20
发表于 2014-2-6 21:46:40 | 只看该作者
把hao加上三声的拼音,组词就正确了。

查看了一下“好”、“号”的汉字信息,发现2个都是多音字,但不同的音调对应的都是同一个字频。我觉得这个有点问题,一般不同的音调含义不同,字频也应当有区别。



点评

但也不太确定。俺是勾选了字、词频 “ 快速 ” 调整的,从二楼紫光输入板的截图看,“ 好看 ” 和 “ 好 ” 都在 “ 号 ” 的前面呵呵!  发表于 2014-2-6 22:47
也可能含有这个因素呵呵!  发表于 2014-2-6 22:36
21
 楼主| 发表于 2014-2-7 09:17:30 | 只看该作者
kingdick 发表于 2014-2-6 21:46
把hao加上三声的拼音,组词就正确了。

查看了一下“好”、“号”的汉字信息,发现2个都是多音字,但不同 ...

非常赞成。
但是组词的概率性问题应该是在语言模型中解决。
而且我觉得紫光的词频问题是比较大的。
22
发表于 2014-2-7 17:39:20 | 只看该作者
语言模型总也没更新了
23
 楼主| 发表于 2014-2-7 21:55:40 | 只看该作者
觉贤 发表于 2014-2-7 17:39
语言模型总也没更新了

估计没有人再弄这个东西了。
现在的百度输入法、搜狗输入法在内核方面和外壳方面做的都比紫光要上一个档次
不过紫光的简洁算得上是个亮点。
24
发表于 2014-2-7 22:29:47 | 只看该作者
本帖最后由 wangyanhan 于 2014-2-7 22:35 编辑
bbc0556 发表于 2014-2-7 21:55
估计没有人再弄这个东西了。
现在的百度输入法、搜狗输入法在内核方面和外壳方面做的都比紫光要上一个档 ...
紫光的亮点多着呢!——洁净、字库大并能自定义、用户设置方便、词库制作工具优秀、辅助输入工具强大、用户词库能导入导出、系统词库一目了然好管理、短语库……等等

对俺来说,主要感觉是辅助码不行,要不然,早就主用紫光了。即使是现在,也把它放在次长位置呵呵!

25
 楼主| 发表于 2014-2-8 08:26:20 | 只看该作者
wangyanhan 发表于 2014-2-7 22:29
紫光的亮点多着呢!——洁净、字库大并能自定义、用户设置方便、词库制作工具优秀、辅助输入工具强大、用户 ...

机器里面还留两个输入法啊~一般主用一个输入法就够了。
辅助码比较强的应该是拼音加加吧。
头像被屏蔽
26
发表于 2014-2-8 15:52:27 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
27
 楼主| 发表于 2014-2-8 16:25:22 | 只看该作者
Loquat-Honey 发表于 2014-2-8 15:52
紫光确实落后了,加加用户量更小。这都是早就已成事实之事,只能面对。不过紫光的改进和更新实在太伤热爱之 ...

Win8上面紫光不好用。
目前就搜狗和百度两家的输入法做的很好。
还有微软自己的英库输入法
28
发表于 2014-2-8 18:18:40 | 只看该作者
本帖最后由 wangyanhan 于 2014-2-8 18:46 编辑
bbc0556 发表于 2014-2-8 08:26
机器里面还留两个输入法啊~一般主用一个输入法就够了。
辅助码比较强的应该是拼音加加吧。
辅助码较强的,当然数加加啊呵呵!下面是个示例,用超级简拼,包括空格上屏,11键造出新词 “下起了大雪” 。



以上只是个示范,其实像这类简单的短语,用7键就可能智能出来呵呵!




29
 楼主| 发表于 2014-2-8 19:55:11 | 只看该作者
wangyanhan 发表于 2014-2-8 18:18
辅助码较强的,当然数加加啊呵呵!下面是个示例,用超级简拼,包括空格上屏,11键造出新词 “下起了大雪”  ...

不过这些辅助码是不是要考记忆去记住,这个也是比较复杂的。
30
发表于 2014-2-8 22:02:06 | 只看该作者
本帖最后由 wangyanhan 于 2014-2-8 22:04 编辑
bbc0556 发表于 2014-2-8 19:55
不过这些辅助码是不是要考记忆去记住,这个也是比较复杂的。
(一)辅助码主用是起筛选作用。
譬如你输入一个首声母 d ,然后键入笔画辅助码 hpd(横撇点),那么,在候选框里就只会出现 “大、达、耷、夺” 这4个候选单字。
再如输入一个超级简拼 jt ,然后键入笔画辅助码 ph(撇横,即词组中每个字的起笔),那么,在候选框里就只会出现 “今天、几天” 等词组。

(二)辅助码只记规律,不需要刻意去死记的。还是以#28楼的贴图来解释吧——
①第二张图中的辅助码 hz ,是“下起了” 词条中 “下起” 每字的起笔。
②第三张图中的辅助码 ry ,是“大雪” 词条中 “大” 字的四角号码第一码 4 (叉4),编码是用 “q——p ” 来替代 ”1——0 ” 的。“ 雪 ” 字的构形辅助码 y(雨)。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2025-12-24 12:17

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表