华宇拼音输入法论坛

标题: V6.9.0.7音节智能识别例举 [打印本页]

作者: sanwsw    时间: 2012-8-24 17:47
标题: V6.9.0.7音节智能识别例举
本帖最后由 sanwsw 于 2012-8-29 21:54 编辑

暂时发现不能智能识别的:
西安市
不大饿
不很饿
作者: wangyanhan    时间: 2012-8-24 18:01
本帖最后由 wangyanhan 于 2012-8-24 18:03 编辑
暂时发现不能智能识别的:
西安市
不大饿
不很饿
sanwsw 发表于 2012-8-24 17:47

戴老师牛啊!这么快就找出了这些问题。如图:

   

是不是心理作用啊?总的来说,全拼(有时也可混拼)输入后,感觉短句的智能组词,是像较先前提高了。5字以上的长句还是不行。

候选词条上屏确实快!!
作者: dooon    时间: 2012-8-24 18:18
西安市是有的,只是排到后面去了,请多翻几页。以后可能会重新修改一下排序方式。
作者: 野风    时间: 2012-8-24 18:19
官方人士说话了!o(∩_∩)o
作者: 紫光蓝天    时间: 2012-8-24 18:40
热烈欢迎dooon
作者: wangyanhan    时间: 2012-8-24 18:47
请教风管、蓝版:dooon是何许尊神啊?
作者: 野风    时间: 2012-8-24 18:48
官方从事输入法工作的……
作者: wangyanhan    时间: 2012-8-24 19:03
官方从事输入法工作的……
野风 发表于 2012-8-24 18:48

谢风管!那就是紫光输入法的开发大侠了。^_^
作者: 野风    时间: 2012-8-24 19:04
回复 9# wangyanhan

应该是sunmd的人吧!
作者: wangyanhan    时间: 2012-8-24 19:16
本帖最后由 wangyanhan 于 2012-8-24 19:17 编辑
弄个嘉宾什么的吧?区分一下
admin03 发表于 2012-8-24 19:03

赞同!!

加加论坛就是这样:卸任后的版主和特殊贡献的会员,享受“贵宾”称号;贡献较大的会员,享受“特邀会员”称号。以上的称号,都不是凭发帖数量来自然升级的,而是由老板或版主们加封的。普通的会员,凭发帖数量来自然升级,最高级别就是“高级会员”。
作者: 野风    时间: 2012-8-24 19:18
这个,在论坛管理页面,找不到选项……除非在后台用代码进行设置了……
作者: 紫光蓝天    时间: 2012-8-24 20:24
公司的人都比较低调
估计dooon 不会在意这个的
因为连院长在论坛上都不任职务
作者: wangyanhan    时间: 2012-8-24 20:40
请问风管和各位版主:



这是不是院长啊?
作者: 紫光蓝天    时间: 2012-8-24 20:41

作者: dooon    时间: 2012-8-24 20:43
感谢大家关注,6.9.0.6改进了一些音节拆分的方式,使得一些情况下的组词结果更优。但由于还是使用以前的语言模型,所以对于那些用户通过手动输入分隔符划分好正确的音节,却仍然不能组对的词,仅靠改进音节拆分算法就无能为力了。欢迎提出更多的有关音节拆分不准确的例子。
作者: wangyanhan    时间: 2012-8-24 20:44
紫光蓝天 发表于 2012-8-24 20:41



这是什么意思啊?请教蓝版。
作者: 紫光蓝天    时间: 2012-8-24 20:47
就是点头啊
老王,你快给dooon大师提出更多的有关音节拆分不准确的例子啊
作者: kingdick    时间: 2012-8-24 20:52
这个帖子专门找无法识别的词组。

kuai/ku'ai



作者: wangyanhan    时间: 2012-8-24 20:53
本帖最后由 wangyanhan 于 2012-8-24 21:49 编辑
就是点头啊
老王,你快给dooon大师提出更多的有关音节拆分不准确的例子啊
紫光蓝天 发表于 2012-8-24 20:47

有戴老师的“压轴戏”了……,我
作者: kingdick    时间: 2012-8-24 20:56
yue/yu'e
作者: kingdick    时间: 2012-8-24 20:57
dang'an/dan'gan
作者: kingdick    时间: 2012-8-24 20:57
fan'an/fa'nan
作者: kingdick    时间: 2012-8-24 21:00
zhua/zhu'a
作者: kingdick    时间: 2012-8-24 21:03
jie/ji'e
作者: michsun    时间: 2012-8-24 21:28
能出新版就好,主要还是期待新版的出现,
作者: sanwsw    时间: 2012-8-24 21:42
饥饿。
主啊。
作者: wangyanhan    时间: 2012-8-25 12:37
“必须安装” bi'xu’an'zuang  如果不分节,就成了“比选装” bi'xuan'zuang  
作者: sanwsw    时间: 2012-8-25 18:01
这个帖子专门找无法识别的词组。

kuai/ku'ai
kingdick 发表于 2012-8-24 20:52

奇怪。我的可以:


作者: wangyanhan    时间: 2012-8-25 19:03
戴老师试试我这个“必须安装”,不分节应该不行吧?


作者: wangyanhan    时间: 2012-8-25 19:13
K版的“我酷爱游泳”,我这里不分节也不行。


作者: ljdqe    时间: 2012-8-25 19:28
想打“新安装”xinanzuang/xin'an'zuang(使用了模糊音设置的),不采用切音符号,没法选出“新”
作者: 野风    时间: 2012-8-25 20:22
这些词不能匹配的原因,可能是你们的词库中没有这样的词,自造这些词以后再试试……
作者: wangyanhan    时间: 2012-8-25 20:26
本帖最后由 wangyanhan 于 2012-8-25 20:32 编辑
想打“新安装”xinanzuang/xin'an'zuang(使用了模糊音设置的),不采用切音符号,没法选出“新”
ljdqe 发表于 2012-8-25 19:28

呵呵!ljdqe版确实说对了,我开启了“z、c、s、l”四个模糊音。
我们上初小时,还没有推广普通话,拼音是后来自学的。加上又是偏南方人,就始终没搞清平卷舌音和前后鼻音。

但我的例句“必须安装”中没有模糊音啊?
作者: wang2lang    时间: 2012-8-25 20:33

作者: richardfsw    时间: 2012-8-25 20:59
不知道这个更新涉及简拼、混拼么?

http://bbs.unispim.com/viewthread.php?tid=29909
作者: ljdqe    时间: 2012-8-25 21:09
这些词不能匹配的原因,可能是你们的词库中没有这样的词,自造这些词以后再试试……
野风 发表于 2012-8-25 20:22



    测试过,必须手动切分音节,才能选出“新”字,之后就可以正常打出了。
作者: wang2lang    时间: 2012-8-25 21:39
改用大语料库后,【我酷爱游泳】可以智能组词出来了
如图:


作者: wangyanhan    时间: 2012-8-25 21:40
不知道这个更新涉及简拼、混拼么?
richardfsw 发表于 2012-8-25 20:59


经过一天的使用,发现全拼(有时可用精简了个别音节的混拼)的智能组词功能有提高。

但觉得这次更新的主要内容——免隔音符输入,其实没有多少改进。

简拼、混拼掺杂使用的效果,还远远赶不上加加。只能单独用超级简拼输入候选少的长词条。
作者: sanwsw    时间: 2012-8-25 22:16
建议:将“系统词库”两字词条中含a、o、e开头音节汉字的词语、短语、短句筛选出来,再将其中词频较高、结构稳固的词语、短语、短句提出来,再在此基础上进行研究,可使音节智能识别更加完美。
作者: wangyanhan    时间: 2012-8-25 22:29
不过话又说回来,免隔音符输入,可能也是输入法技术中的一个高难点。前两天我就介绍过,加加早就有这项功能,但实际发现也是“聋子的耳朵”。耐心等待大师们慢慢研究吧!
作者: kingdick    时间: 2012-8-26 15:36


要是采用这种方式也不错。把拼音串的所有分隔方式的可能性放到输入栏上,让用户选择。
作者: ljdqe    时间: 2012-8-26 15:42
IQ不够呀
js1238 发表于 2012-8-26 15:21



    很形象
作者: krsun    时间: 2012-8-27 02:37
看来解析程序还是有问题啊
作者: kingdick    时间: 2012-8-27 07:15
看来解析程序还是有问题啊
krsun 发表于 2012-8-27 02:37



    你不是自己搞过吗?可以把你的经验提供给官方。
作者: 觉贤    时间: 2012-8-27 08:51
几天不见,老王升级够快的,期待老王新作品出现,呵呵
作者: krsun    时间: 2012-8-28 16:03
你不是自己搞过吗?可以把你的经验提供给官方。
kingdick 发表于 2012-8-27 07:15

代码以前给了
有可能紫光本身的数据结构不同,移植上有一定的麻烦。
作者: sanwsw    时间: 2012-8-29 22:18
本帖最后由 sanwsw 于 2012-8-29 22:19 编辑

紫光华宇拼音输入法V6.9.0.7版,全拼,最大号语言模型文件,不使用隔音符号,输入法设置如下图:


0.必须安装,首选词
1.途安,有这词语,需翻页
2.新途安,首页出现
3.老方案,智能组词,首选词
4.老挨打,智能组词,首页出现
5.去澳门,智能组词,首选词
6.激昂,有这词语,需翻页
7.我很饿,智能组词,首选词
8.比较矮,智能组词,首选词
9.老摁着,智能组词,首选词
10.我是望尘莫及啊,智能组词,首选词
11.无法安装,智能组词,首选词
12.我去西安,智能组词,首选词
13.我去西安市,不能输出
14.抗癌,有这词语,首选词。
15.穿棉袄,智能组词,首选词

不错
作者: sanwsw    时间: 2012-8-29 22:27
16.安徽安庆,智能组词,首选词
17.我去安庆,“我全情”,不能输出
18.安徽省安庆市,智能组词,首选词
19.红安、红安县,这这两个词,首选词
20.我去红安,智能组词,首选词
21.湖北红安,智能组词,首选词
22.激昂的,首页出现(看来,“激昂”这词词频得调整)
23.她很矮、她很爱,造词后,均在首页出现
作者: wangyanhan    时间: 2012-8-29 22:41
本帖最后由 wangyanhan 于 2012-8-29 22:44 编辑

回复 52# sanwsw

我这里测试也是:
输入“我去安庆”的全拼编码,候选词条为“我全情”(系统词条),此外无3、4字的候选了。
作者: ljdqe    时间: 2012-8-30 00:13
woquanqin=我全情
使用了模糊音
作者: wangyanhan    时间: 2012-8-30 00:17
本帖最后由 wangyanhan 于 2012-8-30 00:21 编辑

总得来说,这次更新,“免隔音符输入”功能有很大提升,此功能已大大超越加加。

和6.7之前的版本相比,候选上屏速度也大大提升。
作者: bbc0556    时间: 2012-8-30 09:50
回复 45# kingdick


    PC上面这样实现不好吧。。
26键基本没有重码的问题。
手机上面这样设计基本都是为了9键设计的。

现在最需要解决的就是音节切分和首位词匹配就OK了。
个人认为这个不是很难解决的问题,总动切分解码都解决了,取个音节切分结果还难吗?
作者: kingdick    时间: 2012-8-30 10:42
本帖最后由 kingdick 于 2012-8-30 10:45 编辑
回复  kingdick


    PC上面这样实现不好吧。。
26键基本没有重码的问题。
手机上面这样设计基本都是 ...
bbc0556 发表于 2012-8-30 09:50



    多切分方式都列出来,好处是让用户直接选择而不用再修改拼音串;多种切分方式的候选不再混在一起。

比如这种情况:一个拼音串有A、B两种切分方式,A不是用户需要的、但词库当中有;B是用户需要的、但词库当中没有——这种情况下,智能组词不起作用(因为默认候选是A)、候选当中也不会有B;用户只能返回去添加隔音符或者单字输入。
作者: kingdick    时间: 2012-8-30 10:46
回复 58# kingdick


    当然只是个想法而已。目前,PC上所有的输入法还没有这么干的。
作者: bbc0556    时间: 2012-8-30 10:58
回复 58# kingdick


还是觉得不太合适。。。
这个有音节定位修改功能不就可以了吗?
作者: sanwsw    时间: 2012-8-31 16:41
ku'a:这个音节组合的词语、短语有“苦啊、酷啊、哭啊”,使用频率还蛮高的。无法智能识别。




欢迎光临 华宇拼音输入法论坛 (http://bbs.pinyin.thunisoft.com/) Powered by Discuz! X3.2