华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 17127|回复: 13
打印 上一主题 下一主题

智能组词,琢磨不透

[复制链接]
跳转到指定楼层
1
发表于 2008-12-22 20:30:28 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
  上周写文章时遇到“编纂书籍”这个短语,智能组词出来的是“编纂书记”,很是不解。我用的系统词库里,“编纂”位列第一,“书籍”位列第一,出来的怎么成了“编纂书记”?检查词库,没有“编纂书”。难道是那个大型语言模型作怪?这是一例。
  今晚看到安徽砀山的一则新闻,随即想到“砀山梨”。“dang'shan”仅一词,就是“砀山”,“li”音中,“梨”排位很靠后,但输入“dang'shan'li”就是出来了“砀山梨”!也是那个大型语言模型文件起了帮助?又是一例。
14
 楼主| 发表于 2008-12-31 23:21:32 | 只看该作者
原帖由 溯雪 于 2008-12-31 22:59 发表
原帖由 sanwsw 于 2008-12-31 22:22 发表
    例子五:要输出“今晚湖南卫视的节目糟糕透顶”(不用系统词库,即不勾选“规烦词库V1.5”)

“规范”打错了哦 ...

谢谢提醒。
13
发表于 2008-12-31 22:59:18 | 只看该作者
原帖由 sanwsw 于 2008-12-31 22:22 发表
    例子五:要输出“今晚湖南卫视的节目糟糕透顶”(不用系统词库,即不勾选“规烦词库V1.5”)

规范”打错了哦,
12
 楼主| 发表于 2008-12-31 22:22:41 | 只看该作者
  看了楼上野风超版的回复,今晚得空继续测试。希望开发组专家出来为我等输入法技术菜鸟扫盲一下。

  测试版本:紫光华宇拼音输入法V6.1.0.6241和最大号语言模型文件(bigram.dat为76.9MB)。
  词库挂接:紫光规范词库V1.5、“私用人名”词库、自制的“唐诗宋词”词库、自制的“本地地名”词库。
  字词调整:单字、词语均设为固定。
  输入方式:全拼输入。


  例子一:要输出“私用人名”、“人名词库”
  1.词语测试:私用,位列第一;人名,位列第二;词库,唯一,位列第一。
  2.短语输出:输入“si'yong'ren'ming'”却组合成“饲用人名”,不理解;输入“ren'ming'ci'ku”却组合成“任命词库”。
  3.结论:前者错误,不理解;后者错误可以理解,智能性似乎是依据系统词库某一拼音编码对应词条的词频高低来的。

  例子二:要输出“送你一句话”
  1.词语测试:分别输入“song'ni”、“yi'ju'hua”,能够顺利出来“送你”、“一句话”,因为它们都是唯一的。
  2.句子输出:输入“song'ni'yi'ju'hua”,却出来“送你一句花”。
  3.结论:很不理解。

  例子三:要输出“今晚湖南卫视的节目糟糕透顶”
  1.句子输出:全拼输入所有拼音后,一次性成功。
  2.词语测试:分别输出“今晚”、“湖南卫视”、“的节目”(智能组词而成)、“糟糕透顶”,均一次成功;
  3.结论:似乎系统词库3-4字短语收录尽可能齐备,且2字词词频够高,成功率更大一些。

  例子四:要输出“例子四”
  1.输出结果:出来“离子丝”;
  2.字词检查:“例子”列第一,离子列第二,“丝”字排在第9个。
  3.结论:不理解。

  例子五:要输出“今晚湖南卫视的节目糟糕透顶”(不用系统词库,即不勾选“规范词库V1.5”)
  1.句子输出:错得一塌糊涂,成为“金皖沪南威士的接木造高透丁”
  2.结论:句子输出的智能性主要依赖系统词库词条完备与否、词频优化合理与否;不用系统词库,即使使用最大号语言模型文件,智能性无从谈起。


[ 本帖最后由 sanwsw 于 2008-12-31 23:25 编辑 ]
11
发表于 2008-12-24 07:35:17 | 只看该作者
这个问题我是这样理解的:紫光的任何词库都是可以删除的,甚至只保留用户词库,因此,紫光智能组词,不依赖于任何词库,只取决于语言模型文件(bigram.dat)。
10
发表于 2008-12-23 23:29:45 | 只看该作者
原帖由 sanwsw 于 2008-12-23 11:01 发表
  这种情况近来遇到次数较多,早就想提问了。我的紫光华宇拼音输入法使用情况:
  1.最大号语言模型文件
  2.词库有:紫光规范词库V1.48、“本地地名”词库、“私用人名”词库、“唐诗宋词”词库
  3.字频 ...

就是哈,很奇怪,智能得不可理喻
9
 楼主| 发表于 2008-12-23 11:01:28 | 只看该作者
  这种情况近来遇到次数较多,早就想提问了。我的紫光华宇拼音输入法使用情况:
  1.最大号语言模型文件
  2.词库有:紫光规范词库V1.48、“本地地名”词库、“私用人名”词库、“唐诗宋词”词库
  3.字频、词频设为固定

  大家可以再试:分别输入“冰雕”、“展览”、“冰雕展览”


[ 本帖最后由 sanwsw 于 2008-12-23 13:40 编辑 ]
8
发表于 2008-12-23 09:28:41 | 只看该作者
确实存在这样奇怪的问题,又可能与语料库和算法都有关系,这个改进可就不是一句话的事情了。
7
发表于 2008-12-23 08:51:11 | 只看该作者
原帖由 ljdqe 于 2008-12-22 22:02 发表

会不会与你使用的是双拼有关,我用全拼,直接组出的也是“编纂书记”
--------------------------
输入法版本6239,使用系统自带的词库


全拼:


系统自带词库+best bigram
主要是你没有用大语言模型文件,估计你用的是标配的。krsun 应该也是用的标配的bigram文件,所以才会这样。
6
发表于 2008-12-22 23:41:52 | 只看该作者
编纂书籍
我的也是最大那个

砀山梨
也OK!

这难道?
5
发表于 2008-12-22 22:47:23 | 只看该作者
我用的是安装时默认的
出来的是【编纂书记】
4
发表于 2008-12-22 22:02:58 | 只看该作者
原帖由 野风 于 2008-12-22 20:49 发表
咦?戴兄,你语言模型文件用的是哪一个?我用的是最大的,可以直接组出“编纂书籍”的。
1988

这个皮肤里,绿色字代表智能组词,浅蓝色代表词库中的词。

会不会与你使用的是双拼有关,我用全拼,直接组出的也是“编纂书记”
--------------------------
输入法版本6239,使用系统自带的词库

[ 本帖最后由 ljdqe 于 2008-12-22 22:05 编辑 ]
3
发表于 2008-12-22 20:49:00 | 只看该作者
咦?戴兄,你语言模型文件用的是哪一个?我用的是最大的,可以直接组出“编纂书籍”的。


这个皮肤里,绿色字代表智能组词,浅蓝色代表词库中的词。
2
发表于 2008-12-22 20:45:03 | 只看该作者
紫光组词应该和任何词库没有直接关系,不像加加那样,紫光的智能组词,应该都是来自于语言模型(bigram)文件。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2025-12-26 03:42

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表