|
|
看了楼上野风超版的回复,今晚得空继续测试。希望开发组专家出来为我等输入法技术菜鸟扫盲一下。
测试版本:紫光华宇拼音输入法V6.1.0.6241和最大号语言模型文件(bigram.dat为76.9MB)。
词库挂接:紫光规范词库V1.5、“私用人名”词库、自制的“唐诗宋词”词库、自制的“本地地名”词库。
字词调整:单字、词语均设为固定。
输入方式:全拼输入。
例子一:要输出“私用人名”、“人名词库”
1.词语测试:私用,位列第一;人名,位列第二;词库,唯一,位列第一。
2.短语输出:输入“si'yong'ren'ming'”却组合成“饲用人名”,不理解;输入“ren'ming'ci'ku”却组合成“任命词库”。
3.结论:前者错误,不理解;后者错误可以理解,智能性似乎是依据系统词库某一拼音编码对应词条的词频高低来的。
例子二:要输出“送你一句话”
1.词语测试:分别输入“song'ni”、“yi'ju'hua”,能够顺利出来“送你”、“一句话”,因为它们都是唯一的。
2.句子输出:输入“song'ni'yi'ju'hua”,却出来“送你一句花”。
3.结论:很不理解。
例子三:要输出“今晚湖南卫视的节目糟糕透顶”
1.句子输出:全拼输入所有拼音后,一次性成功。
2.词语测试:分别输出“今晚”、“湖南卫视”、“的节目”(智能组词而成)、“糟糕透顶”,均一次成功;
3.结论:似乎系统词库3-4字短语收录尽可能齐备,且2字词词频够高,成功率更大一些。
例子四:要输出“例子四”
1.输出结果:出来“离子丝”;
2.字词检查:“例子”列第一,离子列第二,“丝”字排在第9个。
3.结论:不理解。
例子五:要输出“今晚湖南卫视的节目糟糕透顶”(不用系统词库,即不勾选“规范词库V1.5”)
1.句子输出:错得一塌糊涂,成为“金皖沪南威士的接木造高透丁”
2.结论:句子输出的智能性主要依赖系统词库词条完备与否、词频优化合理与否;不用系统词库,即使使用最大号语言模型文件,智能性无从谈起。
[ 本帖最后由 sanwsw 于 2008-12-31 23:25 编辑 ] |
|