华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 47049|回复: 33
打印 上一主题 下一主题

紫光赶紧更新一下语言模型或者主词典吧

[复制链接]
跳转到指定楼层
1
发表于 2014-2-5 10:43:45 | 只看该作者 |只看大图 回帖奖励 |正序浏览 |阅读模式
早上随便打个字,“haokandianying”,这个常用词在其他输入法中都是能够正确命中的。
紫光只能命中“号看电影”。。。。。惨淡啊。。。。
虽然很喜欢紫光,但是紫光的潮流功能的确落后了。。。。
开发组赶紧更新啊。。。。
34
发表于 2014-4-20 01:29:26 | 只看该作者
楼主更新版本再试试看
33
发表于 2014-2-9 16:49:15 | 只看该作者
本帖最后由 wangyanhan 于 2014-2-9 16:53 编辑
richardfsw 发表于 2014-2-9 16:35
作为一个辅助码门外汉,觉得:

1、对于单字进行笔画筛选,容易出现笔顺问题,比如“区”、忄这种
richardfsw兄列举的这两个字的例子,俺是用四角号码辅助码处理的。“ 区 ” 字取 7 (七角),“  忄” 取 9 (九是小)。当然,只有拼音加加的辅助码可以自定义,其它拼音输入法的辅助码好像都不能自定义呵呵!

不过,对四角号码比较熟悉的网友似乎不多。俺过去在加加论坛放出的一个《笔画、四角、拆分》辅助码表,先后只有100多人次下载呵呵!
32
发表于 2014-2-9 16:35:37 | 只看该作者
wangyanhan 发表于 2014-2-8 22:02
(一)辅助码主用是起筛选作用。
譬如你输入一个首声母 d ,然后键入笔画辅助码 hpd(横撇点),那么,在候 ...

作为一个辅助码门外汉,觉得:

1、对于单字进行笔画筛选,容易出现笔顺问题,比如“区”、忄这种

2、其实拼音输入的时候,发音到音节编码的转换几乎是完全不费力的,而初学者要想起来第一笔是什么肯定要那么点时间。
31
发表于 2014-2-9 10:25:46 | 只看该作者
wangyanhan 发表于 2014-2-8 22:02
(一)辅助码主用是起筛选作用。
譬如你输入一个首声母 d ,然后键入笔画辅助码 hpd(横撇点),那么,在候 ...

是的加加,辅助码灵活,词库精良;但程序上屏有点卡

点评

俺用250万左右的词库,怎么感觉不出卡啊?当然加加也有几个大弱点:①字库太小;②对多音字注音的质量不高。不过加加给出的自定义功能很多,可以弥补一些不足呵呵!  发表于 2014-2-9 16:25
30
发表于 2014-2-8 22:02:06 | 只看该作者
本帖最后由 wangyanhan 于 2014-2-8 22:04 编辑
bbc0556 发表于 2014-2-8 19:55
不过这些辅助码是不是要考记忆去记住,这个也是比较复杂的。
(一)辅助码主用是起筛选作用。
譬如你输入一个首声母 d ,然后键入笔画辅助码 hpd(横撇点),那么,在候选框里就只会出现 “大、达、耷、夺” 这4个候选单字。
再如输入一个超级简拼 jt ,然后键入笔画辅助码 ph(撇横,即词组中每个字的起笔),那么,在候选框里就只会出现 “今天、几天” 等词组。

(二)辅助码只记规律,不需要刻意去死记的。还是以#28楼的贴图来解释吧——
①第二张图中的辅助码 hz ,是“下起了” 词条中 “下起” 每字的起笔。
②第三张图中的辅助码 ry ,是“大雪” 词条中 “大” 字的四角号码第一码 4 (叉4),编码是用 “q——p ” 来替代 ”1——0 ” 的。“ 雪 ” 字的构形辅助码 y(雨)。
29
 楼主| 发表于 2014-2-8 19:55:11 | 只看该作者
wangyanhan 发表于 2014-2-8 18:18
辅助码较强的,当然数加加啊呵呵!下面是个示例,用超级简拼,包括空格上屏,11键造出新词 “下起了大雪”  ...

不过这些辅助码是不是要考记忆去记住,这个也是比较复杂的。
28
发表于 2014-2-8 18:18:40 | 只看该作者
本帖最后由 wangyanhan 于 2014-2-8 18:46 编辑
bbc0556 发表于 2014-2-8 08:26
机器里面还留两个输入法啊~一般主用一个输入法就够了。
辅助码比较强的应该是拼音加加吧。
辅助码较强的,当然数加加啊呵呵!下面是个示例,用超级简拼,包括空格上屏,11键造出新词 “下起了大雪” 。



以上只是个示范,其实像这类简单的短语,用7键就可能智能出来呵呵!




27
 楼主| 发表于 2014-2-8 16:25:22 | 只看该作者
Loquat-Honey 发表于 2014-2-8 15:52
紫光确实落后了,加加用户量更小。这都是早就已成事实之事,只能面对。不过紫光的改进和更新实在太伤热爱之 ...

Win8上面紫光不好用。
目前就搜狗和百度两家的输入法做的很好。
还有微软自己的英库输入法
头像被屏蔽
26
发表于 2014-2-8 15:52:27 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
25
 楼主| 发表于 2014-2-8 08:26:20 | 只看该作者
wangyanhan 发表于 2014-2-7 22:29
紫光的亮点多着呢!——洁净、字库大并能自定义、用户设置方便、词库制作工具优秀、辅助输入工具强大、用户 ...

机器里面还留两个输入法啊~一般主用一个输入法就够了。
辅助码比较强的应该是拼音加加吧。
24
发表于 2014-2-7 22:29:47 | 只看该作者
本帖最后由 wangyanhan 于 2014-2-7 22:35 编辑
bbc0556 发表于 2014-2-7 21:55
估计没有人再弄这个东西了。
现在的百度输入法、搜狗输入法在内核方面和外壳方面做的都比紫光要上一个档 ...
紫光的亮点多着呢!——洁净、字库大并能自定义、用户设置方便、词库制作工具优秀、辅助输入工具强大、用户词库能导入导出、系统词库一目了然好管理、短语库……等等

对俺来说,主要感觉是辅助码不行,要不然,早就主用紫光了。即使是现在,也把它放在次长位置呵呵!

23
 楼主| 发表于 2014-2-7 21:55:40 | 只看该作者
觉贤 发表于 2014-2-7 17:39
语言模型总也没更新了

估计没有人再弄这个东西了。
现在的百度输入法、搜狗输入法在内核方面和外壳方面做的都比紫光要上一个档次
不过紫光的简洁算得上是个亮点。
22
发表于 2014-2-7 17:39:20 | 只看该作者
语言模型总也没更新了
21
 楼主| 发表于 2014-2-7 09:17:30 | 只看该作者
kingdick 发表于 2014-2-6 21:46
把hao加上三声的拼音,组词就正确了。

查看了一下“好”、“号”的汉字信息,发现2个都是多音字,但不同 ...

非常赞成。
但是组词的概率性问题应该是在语言模型中解决。
而且我觉得紫光的词频问题是比较大的。
20
发表于 2014-2-6 21:46:40 | 只看该作者
把hao加上三声的拼音,组词就正确了。

查看了一下“好”、“号”的汉字信息,发现2个都是多音字,但不同的音调对应的都是同一个字频。我觉得这个有点问题,一般不同的音调含义不同,字频也应当有区别。



点评

但也不太确定。俺是勾选了字、词频 “ 快速 ” 调整的,从二楼紫光输入板的截图看,“ 好看 ” 和 “ 好 ” 都在 “ 号 ” 的前面呵呵!  发表于 2014-2-6 22:47
也可能含有这个因素呵呵!  发表于 2014-2-6 22:36
19
 楼主| 发表于 2014-2-6 20:56:16 | 只看该作者
wangyanhan 发表于 2014-2-6 19:21
语料库适当的大点是可以的,但它们的效率并非呈线性函数。

机子能不能拖动当然是要考虑的因素,但俺觉得 ...

非常赞成。
语言模型其实越大越好,但是越大性能会越糟糕。
词库并非越大越好,词库太大会造成候选项过多,排序便成了很大的问题。

点评

你的观点?语言模型是不是越大越好?  发表于 2014-2-7 18:38
18
发表于 2014-2-6 19:21:50 | 只看该作者
本帖最后由 wangyanhan 于 2014-2-6 19:24 编辑

语料库适当的大点是可以的,但它们的效率并非呈线性函数。

机子能不能拖动当然是要考虑的因素,但俺觉得还有一个因素,就是太大了应用其实有限,而更多的是冗积呵呵!
17
 楼主| 发表于 2014-2-6 19:12:41 | 只看该作者
Loquat-Honey 发表于 2014-2-6 08:06
词语模型确实跟不上潮流,很多组词规则不太合理。但是不能说没有效果,犹如一台陈旧但没废弃的机器,有时候 ...

官方自带的语言模型确实很糟糕。
语言模型决定了词库交合的准确性。
老是依靠大量的词库去支撑准确性是不靠谱的。
语言模型的改进其实并没有那么难,只要抓取最新最近的大量语料,花点时间训练一下还是可以的。
相信紫光的语言模型的训练算法应该已经成熟了,其实就是更新一下语料重新来一次就行。
官方自带的实在是太糟糕了。。。
16
发表于 2014-2-6 19:07:41 | 只看该作者
ljdqe 发表于 2014-2-5 14:14
从6.8版以后,就没再用其他词库了,只是使用系统词库,短语库当然是系统的外加自己。
不过语言模型使用的 ...

关于语言模型的选择嘛,本来我也是这么想的

但是以我目前的电脑(2010年Y450,T6600,2G,GT240M)来说,bestdat和自带文件相比,有明显区别

特别是用惯了bestdat之后重装系统新装紫光的时候
15
发表于 2014-2-6 13:04:22 | 只看该作者
野风 发表于 2014-2-6 11:11
官方的语言模型有三个,分别是gooddat、welldat和bestdat。
其中gooddat是标配的,如果觉得gooddat不能满足 ...

“标配”一说不妥吧?

自带的语言模型库是11.8MB的,而gooddate有24.5MB

点评

如果机子不是太烂,推荐用bestdat  发表于 2014-2-6 15:02
14
发表于 2014-2-6 12:48:22 | 只看该作者
richardfsw 发表于 2014-2-6 09:22
记得语言模型的更新,12年的时候论坛上就已经有人在提了
可能是工作量比较大吧……


对于楼主的问题,俺只不过是在测试、探讨而已。

俺虽然近于短语输入派,但实际中和 richardfsw 兄的操作是很相似的,主要依赖用户词库……

之所以一直主用加加,就是因为加加的辅助码强大,在人工造词时筛选快。至于智能嘛!能智能则智能,不能智能就随即造呵呵!

点评

嗯。对智能组词和整句输入有先天的不信任感~~  发表于 2014-2-6 13:03
13
发表于 2014-2-6 11:11:03 | 只看该作者
官方的语言模型有三个,分别是gooddat、welldat和bestdat。
其中gooddat是标配的,如果觉得gooddat不能满足使用的话,可以使用welldat或者是bestdat。
下载地址:http://bbs.unispim.com/forum.php?mod=viewthread&tid=2697
12
发表于 2014-2-6 09:22:43 | 只看该作者
记得语言模型的更新,12年的时候论坛上就已经有人在提了
可能是工作量比较大吧……

不过作为一个字词派,对我的影响倒不是很大,我更依赖用户词库而不是智能组词
头像被屏蔽
11
发表于 2014-2-6 08:06:54 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
10
 楼主| 发表于 2014-2-5 23:17:17 | 只看该作者
ljdqe 发表于 2014-2-5 14:14
从6.8版以后,就没再用其他词库了,只是使用系统词库,短语库当然是系统的外加自己。
不过语言模型使用的 ...

官方原版的语言模型真的组不出来这个词条。
紫光的语言模型得好好的优化一下。
9
 楼主| 发表于 2014-2-5 23:15:41 | 只看该作者
wangyanhan 发表于 2014-2-5 13:52
俺一直是主用加加的,所以对紫光的短语库等方面下功夫多,对词库反而没有 ...

紫光官方版本确实只能出来“号看电影”
8
 楼主| 发表于 2014-2-5 23:14:52 | 只看该作者
ljdqe 发表于 2014-2-5 13:21
能够智能组词成功啊,啥情况?

确定不是用户词?
我就是下载官网的版本,打不出这个词条。
语言模型不行了啊

点评

额,从截图上应该看得出是智能组词出来的啊。估计是因为我用的是最大的那个语言模型  发表于 2014-2-6 00:12
7
发表于 2014-2-5 18:03:26 | 只看该作者
sanwsw 发表于 2014-2-5 17:12
顺利智能组词。楼主更新版本再试试看。


俺用的是 “6.9.0.22”。对比了一下词频,官方 “ 好看 ” 的词频比戴老师紫光词库的词频高,可戴老师顺利智能了,俺却不成呵呵!


6
发表于 2014-2-5 17:12:23 | 只看该作者
顺利智能组词。楼主更新版本再试试看。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2025-12-24 16:50

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表