华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 29740|回复: 15
打印 上一主题 下一主题

关于智能组词的小发现

[复制链接]
跳转到指定楼层
1
发表于 2013-12-15 22:21:35 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
虽然一直弄不明白语言模型到底是个什么东西,不过有时还是能给到一些小惊喜——
今天第一次输入“甲贺忍法帖”,居然智能组词成功了……一看,05年的作品,倒也不算太奇怪,否则就神了

用的是gooddata,因为勾上了智能组词入库,所以懒得删词就不截图了^_^


PS:内容比较水,就当活跃论坛了…………
头像被屏蔽
2
发表于 2013-12-15 22:51:07 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
3
发表于 2013-12-15 23:50:37 | 只看该作者
仿佛记得今年初更新版刚放出时,俺专门做过测试,发现紫光输入法的人工造词能参加智能组词了。因为一直是主用加加,所以此后也没有进一步的测试和输入体验。

总之现在把加加的4万多用户词条导入到紫光后,发现紫光也越来越好用了。主要是没有辅助码,造新词没有加加方便,因此还是主用加加呵呵!
4
 楼主| 发表于 2013-12-16 10:05:12 | 只看该作者
Loquat-Honey 发表于 2013-12-15 22:51
输入该词,词库里有,没法测试。个人体会是规则比较陈旧,大多不太合手,但偶有惊喜,更多是想踹之和哭笑不 ...

其实我估计论坛里的华宇用户都不怎么依赖智能组词,没几个人用户词库是少于四位数的……
头像被屏蔽
5
发表于 2013-12-16 10:37:19 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
6
 楼主| 发表于 2013-12-16 11:22:40 | 只看该作者
Loquat-Honey 发表于 2013-12-16 10:37
个人比较依赖智能组词。半年多前彻底清理了一下用户词库,从1.8万减到5000左右。但是根本满足不了日常打字。 ...

呃……略夸张。你是不是输入的文字比较专业,又没有相关专业的对应词库?

光靠大词库和大语料库乱枪打鸟恐怕不是个好方法,还拖慢响应速度

我的用户词库经过清理后,不到2000词(清理以前也就2500左右吧)。挂载输入法自带的系统词库、人名词库、地名词库,使用gooddata小型语料库,其实日常用用也没觉得有什么问题。过段时间我还打算替换为更小的基础词库
7
发表于 2013-12-16 16:08:30 | 只看该作者
俺个人认为,字词派是可以依赖下载词库的,包括系统词库和分类词库,但短语派不依赖用户词库不行。因为用户的断句习惯形形色色,再大的下载词库和语料库,都难以满足用户形形色色的短语。如果不积累用户词条,就会出现过多的自造词,严重影响输入速度呵呵!
8
 楼主| 发表于 2013-12-16 19:18:30 | 只看该作者
wangyanhan 发表于 2013-12-16 16:08
俺个人认为,字词派是可以依赖下载词库的,包括系统词库和分类词库,但短语派不依赖用户词库不行。因为用户 ...

这方面,我个人认为,字词派可以依赖词库没错,但解决短语派的需求应该是语言模型的设计目标。因为字词排列组合形成的短语,即使断句习惯保持一致,其数量也将非常庞大,在到达良好用户体验之前的积累过程太长(如果智能组词经常出错的话)。至于整句派,就需要云之类更高级的解决方案了。

是不是可以分别对应加加、紫光和搜狗/QQ  这样的三大类输入法呢~~?
9
发表于 2013-12-16 21:13:35 | 只看该作者
本帖最后由 wangyanhan 于 2013-12-16 21:17 编辑
richardfsw 发表于 2013-12-16 19:18
这方面,我个人认为,字词派可以依赖词库没错,但解决短语派的需求应该是语言模型的设计目标。因为字词排 ...


加加别的方面不一定比紫光强,就两样要强一些:①能轻轻松松的拖动300万左右的大词库;②强大的辅助码筛选,含单字筛选和持续辅助码的词组筛选。所谓持续辅助码的词组筛选是这样的:打超级简拼“wmdj”,然后按Tab进入辅助码模式,打“pphd(‘我们大家’每个字的起笔)”就可以筛选出“我们大家”了(如果词库中有“我们大家”的话)。俺之所以至今都主用加加,也就是因为加加的间接辅助码强大。

据俺所知,QQ拼音输入法也有间接辅助码,包括持续辅助码。主要缺点是不能自定义。

双拼就不同了,紫光用自定义短语就可以自定义双拼辅助码,所以摆弄双拼的,对紫光新不新增间接辅助码是没有强烈要求的呵呵!

紫光的字库大,辅助输入工具先进且多,这是其它拼音输入法无发相比的。

拼音输入法大致上可以像你说的分类,但现在放弃搜狗、靠拢QQ的人似乎越来越多……

点评

百度拼音也一直在发展,可见其用户量也不小。  发表于 2013-12-17 10:43
10
 楼主| 发表于 2013-12-16 22:38:46 | 只看该作者
wangyanhan 发表于 2013-12-16 21:13
加加别的方面不一定比紫光强,就两样要强一些:①能轻轻松松的拖动300万左右的大词库;②强大的辅助码筛 ...

我总觉得间接辅助码会打断思路,毕竟要从语音切换到笔画思维。可能是习惯不同吧

至于说放弃搜狗换QQ,我觉得还是和搜狗的弹窗有关吧。相对来说,QQ可能更干净一些?

11
发表于 2013-12-16 23:00:18 | 只看该作者
本帖最后由 wangyanhan 于 2013-12-16 23:23 编辑
richardfsw 发表于 2013-12-16 22:38
我总觉得间接辅助码会打断思路,毕竟要从语音切换到笔画思维。可能是习惯不同吧

至于说放弃搜狗换QQ, ...
辅助码不会经常用的,主要是用在人工造词的时候。人工造词主要靠词组和单字,有辅助码帮忙,词组和单字 就出来快一些呵呵!

还是现身说法吧!俺过去是用搜狗的,两年前玩起加加,结果就爱不释手了。为什么呢?因为俺是退休以后无聊,才玩起电脑和输入法的,打字没经过专业训练,到如今也是盯住键盘单指击键,拼音也不太熟练,因此就选择了混拼和短语输入模式,这当然要靠大量的用户词库作后盾呵呵!而用户词条又是通过词组和打字一个一个造出来的。现在用户词库一大,打字也就慢慢流利了呵呵!

补充一点——曾有一段时间还想尝试一下整句输入,不过随即便放弃了,因为在输入实践中,整句出现的频次更少,这就会导致用户词库更大……。另外,整句输入的思维跨度更大,其实更容易出错呵呵!
头像被屏蔽
12
发表于 2013-12-17 00:17:01 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
13
 楼主| 发表于 2013-12-17 11:00:39 | 只看该作者
Loquat-Honey 发表于 2013-12-17 00:17
字词派也许够用,但输入来说字词派除非高手,否则速度根本不满意。你们速度多少?个人连每分100都达不到,非 ...

这个嘛,某种程度上,我正是为了摆脱对输入法智能性的高度依赖(同时严格控制错别字),所以才倾向于字词派的输入风格。因为一句话或者短语,只要输入法没能一次命中,我修改的耗时就远多于用字词派所耗费的击键时间了。

字词派受制于击键次数较多,输入速度受到限制。个人在之前单位里某一次打字测试时的成绩好像是每分93字,在同教室的人中也勉强可以算名列前茅了(都是25岁以下的年轻人)。而且当时用的是稍加调校的搜狗,词库如何不清楚。假如用顺手的紫光,也许可以有所提高,不过突破100恐怕也是很有难度的。

这个问题不同的人有不同的看法:如果只是日常聊天和一般性的撰写文稿,我觉得这个速度已经完全足够了。个人写文章的时候从来都是写几句就要停下来斟酌措辞和句法,等待文字录入的过程并不引起我的注意。但如果是专业的文字录入人员,需要不动脑筋地输入现成的文稿,那可能是要想办法作进一步的提高。

另外,单论拼音输入法的话,在经常需要人工选词的前提下,我觉得双拼意义不大。


顺便问一下,经过长期探索之后,你觉得各家输入法最让你不能满意的短板分别在哪里?
14
发表于 2014-1-26 11:44:41 | 只看该作者
Loquat-Honey 发表于 2013-12-15 22:51
输入该词,词库里有,没法测试。个人体会是规则比较陈旧,大多不太合手,但偶有惊喜,更多是想踹之和哭笑不 ...

目前紫光输入法整句完全是靠语言模型的,用户词基本不会影响整句解码的。
15
发表于 2014-1-27 23:02:21 | 只看该作者
智能组词入库是基本的常识。
经过这么长时间的验证发现:光靠语言模型打分去完全控制整句是不靠谱的。
16
 楼主| 发表于 2014-2-9 16:46:13 | 只看该作者
bbc0556 发表于 2014-1-27 23:02
智能组词入库是基本的常识。
经过这么长时间的验证发现:光靠语言模型打分去完全控制整句是不靠谱的。

就目前来说,智能组词入库也没什么问题

不过当初论坛上好像是fengyu29版主曾经反对过这一条,原帖找不到了
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2025-12-24 10:46

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表