华宇拼音输入法论坛

标题: 紫光赶紧更新一下语言模型或者主词典吧 [打印本页]

作者: bbc0556    时间: 2014-2-5 10:43
标题: 紫光赶紧更新一下语言模型或者主词典吧
早上随便打个字,“haokandianying”,这个常用词在其他输入法中都是能够正确命中的。
紫光只能命中“号看电影”。。。。。惨淡啊。。。。
虽然很喜欢紫光,但是紫光的潮流功能的确落后了。。。。
开发组赶紧更新啊。。。。
作者: wangyanhan    时间: 2014-2-5 12:20

真的啊!俺的加加、紫光中,都没有这个现成词条。似乎加加智能成功了呵呵!





作者: ljdqe    时间: 2014-2-5 13:21
能够智能组词成功啊,啥情况?


作者: wangyanhan    时间: 2014-2-5 13:52
本帖最后由 wangyanhan 于 2014-2-5 14:00 编辑
ljdqe 发表于 2014-2-5 13:21
能够智能组词成功啊,啥情况?



俺一直是主用加加的,所以对紫光的短语库等方面下功夫多,对词库反而没有着意摆弄,用的是官方系统词库和语料库。L版呢?

加加俺用的也是官方语料库,不过系统词库配的大一些——240多万。

按理说,“ 好看、 电影” 都是较高频的词条,应该是都可以智能成功的……

作者: ljdqe    时间: 2014-2-5 14:14
wangyanhan 发表于 2014-2-5 13:52
俺一直是主用加加的,所以对紫光的短语库等方面下功夫多,对词库反而没有 ...

从6.8版以后,就没再用其他词库了,只是使用系统词库,短语库当然是系统的外加自己。
不过语言模型使用的是最大的那个了,反正现在的硬件再差也差不多那里去
作者: sanwsw    时间: 2014-2-5 17:12
顺利智能组词。楼主更新版本再试试看。
作者: wangyanhan    时间: 2014-2-5 18:03
sanwsw 发表于 2014-2-5 17:12
顺利智能组词。楼主更新版本再试试看。


俺用的是 “6.9.0.22”。对比了一下词频,官方 “ 好看 ” 的词频比戴老师紫光词库的词频高,可戴老师顺利智能了,俺却不成呵呵!



作者: bbc0556    时间: 2014-2-5 23:14
ljdqe 发表于 2014-2-5 13:21
能够智能组词成功啊,啥情况?

确定不是用户词?
我就是下载官网的版本,打不出这个词条。
语言模型不行了啊

作者: bbc0556    时间: 2014-2-5 23:15
wangyanhan 发表于 2014-2-5 13:52
俺一直是主用加加的,所以对紫光的短语库等方面下功夫多,对词库反而没有 ...

紫光官方版本确实只能出来“号看电影”
作者: bbc0556    时间: 2014-2-5 23:17
ljdqe 发表于 2014-2-5 14:14
从6.8版以后,就没再用其他词库了,只是使用系统词库,短语库当然是系统的外加自己。
不过语言模型使用的 ...

官方原版的语言模型真的组不出来这个词条。
紫光的语言模型得好好的优化一下。
作者: Loquat-Honey    时间: 2014-2-6 08:06
提示: 作者被禁止或删除 内容自动屏蔽
作者: richardfsw    时间: 2014-2-6 09:22
记得语言模型的更新,12年的时候论坛上就已经有人在提了
可能是工作量比较大吧……

不过作为一个字词派,对我的影响倒不是很大,我更依赖用户词库而不是智能组词
作者: 野风    时间: 2014-2-6 11:11
官方的语言模型有三个,分别是gooddat、welldat和bestdat。
其中gooddat是标配的,如果觉得gooddat不能满足使用的话,可以使用welldat或者是bestdat。
下载地址:http://bbs.unispim.com/forum.php?mod=viewthread&tid=2697
作者: wangyanhan    时间: 2014-2-6 12:48
richardfsw 发表于 2014-2-6 09:22
记得语言模型的更新,12年的时候论坛上就已经有人在提了
可能是工作量比较大吧……


对于楼主的问题,俺只不过是在测试、探讨而已。

俺虽然近于短语输入派,但实际中和 richardfsw 兄的操作是很相似的,主要依赖用户词库……

之所以一直主用加加,就是因为加加的辅助码强大,在人工造词时筛选快。至于智能嘛!能智能则智能,不能智能就随即造呵呵!

作者: richardfsw    时间: 2014-2-6 13:04
野风 发表于 2014-2-6 11:11
官方的语言模型有三个,分别是gooddat、welldat和bestdat。
其中gooddat是标配的,如果觉得gooddat不能满足 ...

“标配”一说不妥吧?

自带的语言模型库是11.8MB的,而gooddate有24.5MB
作者: richardfsw    时间: 2014-2-6 19:07
ljdqe 发表于 2014-2-5 14:14
从6.8版以后,就没再用其他词库了,只是使用系统词库,短语库当然是系统的外加自己。
不过语言模型使用的 ...

关于语言模型的选择嘛,本来我也是这么想的

但是以我目前的电脑(2010年Y450,T6600,2G,GT240M)来说,bestdat和自带文件相比,有明显区别

特别是用惯了bestdat之后重装系统新装紫光的时候
作者: bbc0556    时间: 2014-2-6 19:12
Loquat-Honey 发表于 2014-2-6 08:06
词语模型确实跟不上潮流,很多组词规则不太合理。但是不能说没有效果,犹如一台陈旧但没废弃的机器,有时候 ...

官方自带的语言模型确实很糟糕。
语言模型决定了词库交合的准确性。
老是依靠大量的词库去支撑准确性是不靠谱的。
语言模型的改进其实并没有那么难,只要抓取最新最近的大量语料,花点时间训练一下还是可以的。
相信紫光的语言模型的训练算法应该已经成熟了,其实就是更新一下语料重新来一次就行。
官方自带的实在是太糟糕了。。。
作者: wangyanhan    时间: 2014-2-6 19:21
本帖最后由 wangyanhan 于 2014-2-6 19:24 编辑

语料库适当的大点是可以的,但它们的效率并非呈线性函数。

机子能不能拖动当然是要考虑的因素,但俺觉得还有一个因素,就是太大了应用其实有限,而更多的是冗积呵呵!
作者: bbc0556    时间: 2014-2-6 20:56
wangyanhan 发表于 2014-2-6 19:21
语料库适当的大点是可以的,但它们的效率并非呈线性函数。

机子能不能拖动当然是要考虑的因素,但俺觉得 ...

非常赞成。
语言模型其实越大越好,但是越大性能会越糟糕。
词库并非越大越好,词库太大会造成候选项过多,排序便成了很大的问题。
作者: kingdick    时间: 2014-2-6 21:46
把hao加上三声的拼音,组词就正确了。

查看了一下“好”、“号”的汉字信息,发现2个都是多音字,但不同的音调对应的都是同一个字频。我觉得这个有点问题,一般不同的音调含义不同,字频也应当有区别。




作者: bbc0556    时间: 2014-2-7 09:17
kingdick 发表于 2014-2-6 21:46
把hao加上三声的拼音,组词就正确了。

查看了一下“好”、“号”的汉字信息,发现2个都是多音字,但不同 ...

非常赞成。
但是组词的概率性问题应该是在语言模型中解决。
而且我觉得紫光的词频问题是比较大的。
作者: 觉贤    时间: 2014-2-7 17:39
语言模型总也没更新了
作者: bbc0556    时间: 2014-2-7 21:55
觉贤 发表于 2014-2-7 17:39
语言模型总也没更新了

估计没有人再弄这个东西了。
现在的百度输入法、搜狗输入法在内核方面和外壳方面做的都比紫光要上一个档次
不过紫光的简洁算得上是个亮点。
作者: wangyanhan    时间: 2014-2-7 22:29
本帖最后由 wangyanhan 于 2014-2-7 22:35 编辑
bbc0556 发表于 2014-2-7 21:55
估计没有人再弄这个东西了。
现在的百度输入法、搜狗输入法在内核方面和外壳方面做的都比紫光要上一个档 ...
紫光的亮点多着呢!——洁净、字库大并能自定义、用户设置方便、词库制作工具优秀、辅助输入工具强大、用户词库能导入导出、系统词库一目了然好管理、短语库……等等

对俺来说,主要感觉是辅助码不行,要不然,早就主用紫光了。即使是现在,也把它放在次长位置呵呵!


作者: bbc0556    时间: 2014-2-8 08:26
wangyanhan 发表于 2014-2-7 22:29
紫光的亮点多着呢!——洁净、字库大并能自定义、用户设置方便、词库制作工具优秀、辅助输入工具强大、用户 ...

机器里面还留两个输入法啊~一般主用一个输入法就够了。
辅助码比较强的应该是拼音加加吧。
作者: Loquat-Honey    时间: 2014-2-8 15:52
提示: 作者被禁止或删除 内容自动屏蔽
作者: bbc0556    时间: 2014-2-8 16:25
Loquat-Honey 发表于 2014-2-8 15:52
紫光确实落后了,加加用户量更小。这都是早就已成事实之事,只能面对。不过紫光的改进和更新实在太伤热爱之 ...

Win8上面紫光不好用。
目前就搜狗和百度两家的输入法做的很好。
还有微软自己的英库输入法

作者: wangyanhan    时间: 2014-2-8 18:18
本帖最后由 wangyanhan 于 2014-2-8 18:46 编辑
bbc0556 发表于 2014-2-8 08:26
机器里面还留两个输入法啊~一般主用一个输入法就够了。
辅助码比较强的应该是拼音加加吧。
辅助码较强的,当然数加加啊呵呵!下面是个示例,用超级简拼,包括空格上屏,11键造出新词 “下起了大雪” 。



以上只是个示范,其实像这类简单的短语,用7键就可能智能出来呵呵!





作者: bbc0556    时间: 2014-2-8 19:55
wangyanhan 发表于 2014-2-8 18:18
辅助码较强的,当然数加加啊呵呵!下面是个示例,用超级简拼,包括空格上屏,11键造出新词 “下起了大雪”  ...

不过这些辅助码是不是要考记忆去记住,这个也是比较复杂的。
作者: wangyanhan    时间: 2014-2-8 22:02
本帖最后由 wangyanhan 于 2014-2-8 22:04 编辑
bbc0556 发表于 2014-2-8 19:55
不过这些辅助码是不是要考记忆去记住,这个也是比较复杂的。
(一)辅助码主用是起筛选作用。
譬如你输入一个首声母 d ,然后键入笔画辅助码 hpd(横撇点),那么,在候选框里就只会出现 “大、达、耷、夺” 这4个候选单字。
再如输入一个超级简拼 jt ,然后键入笔画辅助码 ph(撇横,即词组中每个字的起笔),那么,在候选框里就只会出现 “今天、几天” 等词组。

(二)辅助码只记规律,不需要刻意去死记的。还是以#28楼的贴图来解释吧——
①第二张图中的辅助码 hz ,是“下起了” 词条中 “下起” 每字的起笔。
②第三张图中的辅助码 ry ,是“大雪” 词条中 “大” 字的四角号码第一码 4 (叉4),编码是用 “q——p ” 来替代 ”1——0 ” 的。“ 雪 ” 字的构形辅助码 y(雨)。

作者: 觉贤    时间: 2014-2-9 10:25
wangyanhan 发表于 2014-2-8 22:02
(一)辅助码主用是起筛选作用。
譬如你输入一个首声母 d ,然后键入笔画辅助码 hpd(横撇点),那么,在候 ...

是的加加,辅助码灵活,词库精良;但程序上屏有点卡
作者: richardfsw    时间: 2014-2-9 16:35
wangyanhan 发表于 2014-2-8 22:02
(一)辅助码主用是起筛选作用。
譬如你输入一个首声母 d ,然后键入笔画辅助码 hpd(横撇点),那么,在候 ...

作为一个辅助码门外汉,觉得:

1、对于单字进行笔画筛选,容易出现笔顺问题,比如“区”、忄这种

2、其实拼音输入的时候,发音到音节编码的转换几乎是完全不费力的,而初学者要想起来第一笔是什么肯定要那么点时间。
作者: wangyanhan    时间: 2014-2-9 16:49
本帖最后由 wangyanhan 于 2014-2-9 16:53 编辑
richardfsw 发表于 2014-2-9 16:35
作为一个辅助码门外汉,觉得:

1、对于单字进行笔画筛选,容易出现笔顺问题,比如“区”、忄这种
richardfsw兄列举的这两个字的例子,俺是用四角号码辅助码处理的。“ 区 ” 字取 7 (七角),“  忄” 取 9 (九是小)。当然,只有拼音加加的辅助码可以自定义,其它拼音输入法的辅助码好像都不能自定义呵呵!

不过,对四角号码比较熟悉的网友似乎不多。俺过去在加加论坛放出的一个《笔画、四角、拆分》辅助码表,先后只有100多人次下载呵呵!
作者: tomelephant    时间: 2014-4-20 01:29
楼主更新版本再试试看




欢迎光临 华宇拼音输入法论坛 (http://bbs.pinyin.thunisoft.com/) Powered by Discuz! X3.2