华宇拼音输入法论坛

标题: 输入法的本质探讨 [打印本页]

作者: 中家    时间: 2008-2-19 16:22
标题: 输入法的本质探讨
抓住一些根本的东西,才不会在讨论的过程中迷失了方向,本帖抛砖引玉,希望通过讨论定下一些基本的理念。

输入法的本质不外乎,用户输入一定的按键,得到用户希望得到的汉字。

拼音输入法的优势,经过国家这么多年的普通话拼音普及,拼音的编码几乎不需要学习便可使用,这应该是输入法发展的主流趋势,五笔、表形等编码毕竟还需要用户专门的学习训练,这种代价应该由计算机来完成比较合适。

根据汉语的特点,一个发音下面,对应着若干汉字,所以一串拼音对应的到底是什么汉字,这需要输入法根据句子的前后关联判断,作出最优化的选择。其判断的依据有:前后关联语料库、词库词频、字频

同一个拼音下面对应的汉字太多,现在的拼音输入法大约有以下方面进行筛选,因为筛选下来的汉字越少,进行智能化判断运算的效率就越高,输入法的智能化感觉肯定是越好,所以加入音调、加入部首辅助码、加入笔画辅助码等,音调、笔画辅助码比较规范,也很好学,缺点是筛选的效率不高,部首辅助码筛选效率高,但缺点是不太规范,相对难学。

所以拼音输入法要追求智能化,必须充分利用用户按键所提供的信息。整句输入法与词组输入法相比,相同的按键量,整句输入所提供的输入信息量大得多,同样的智能化运算,得到的信息越多,智能化水平肯定越高,因为有了文字前后之间的关联信息。所以整句输入才是拼音输入法今后发展的主流。

结论:
尽量整句输入,尽量缩小拼音串下面对应的汉字数量

引申:
整句输入,不可能保证句子的完全正确,所以一定要提供一个便捷的修正方式,包括定位、修正等
缩小拼音串下面对应的汉字量,提倡使用声调、笔画、部首等辅助码,省略分隔符、简拼、通配符等与本原则背道,只能在特殊的情况下偶尔才使用。例如,用户事先知道省略分隔符、简拼肯定正确的情况下才使用,通配符则在明确知道正确或自己确实不知道这是个什么字的时候使用。

[ 本帖最后由 中家 于 2008-2-19 16:26 编辑 ]
作者: 中家    时间: 2008-2-19 16:39
还有最好不要启用模糊音,理由如下:

1、与尽量缩小拼音串下面对应的汉字数量原则背道
2、不利于自己的普通话水平提高
作者: ZXD4G    时间: 2008-2-19 16:53
大致同意,补充或异议在于:
1.”本质“定义之后,还应定义”好的输入法“,我的理解有以下几个方面:
1) 减少按键
    平均码长短,计算这个指标时,按键次数(分母)必须包含上屏键、翻页键等
2) 减少时间
    并不是按键数量少的,就能节约时间,如果因重码多而用于人工决策的场合多,耗时也会增加;全拼形式的整句输入,应该说平均码长是不小的,但命中率高的话,还是会节约时间的。
3) 降低学习代价
    楼主已经说明,拼音输入法本身就是代价较低的方案了,但这是受惠于普通话教育,在拼音输入法中引入种种辅助手段时,则丧失了这个优势,需要开发者去努力降低学习成本。
    模糊音的支持,其实也是降低学习成本的方案,要知道,很多地区的人要想说好普通话,代价是很高的(本人的普通话非常自信,不存在这个障碍,不用它),这不符合通过技术革新来服务于人的初衷。
4) 资源占用适当
    所谓适当,并不是指越少越好,而是因机而异,配置高的系统,可以投入多一些,以达到更好的前述效果,否则,只能省着点儿花。

2.音节切分符的省略、简拼和通配机制的采用,还是能够在很多场合、于上述“节约时间”方面起到一定作用,不会成为需要抛弃的方案。例如:n键长词和通配机制,在用户熟悉词库的情况下,确实能够按最少的键来输出期望的内容。

[ 本帖最后由 ZXD4G 于 2008-2-19 16:58 编辑 ]
作者: michsun    时间: 2008-2-19 17:01
4) 资源占用适当
    所谓适当,并不是指越少越好,而是因机而异,配置高的系统,可以投入多一些,以达到更好的前述效果,否则,只能省着点儿花。

同意这点。学习着!
作者: 中家    时间: 2008-2-19 17:04
其实你的“异议”与我观点是一致的:

“n键长词和通配机制,在用户熟悉词库的情况下,确实能够按最少的键来输出期望的内容。”
vs
用户事先知道省略分隔符、简拼肯定正确的情况下才使用,通配符则在明确知道正确或自己确实不知道这是个什么字的时候使用。”

并不是否认这些技术的用处,而是想说明这些技术使用应该有个前提条件,以确保输入法能够获得最高的智能化水平

赞同你补充的几个观点。
作者: fengchun    时间: 2008-2-19 17:09
欣赏两位的探讨,左总说2周内会出台辅助码方案,非常期待。
作者: 中家    时间: 2008-2-19 17:11
“模糊音的支持,其实也是降低学习成本的方案,要知道,很多地区的人要想说好普通话,代价是很高的(本人的普通话非常自信,不存在这个障碍,不用它),这不符合通过技术革新来服务于人的初衷。”

这确实是两难的选择,我是典型的南方人,卷舌与非卷舌总是分不清,但是我坚持不使用模糊音,是一时付出了代价,但是我的拼音水平在这付出的代价中得到了提高,坚持一段时间之后,我的输入效率比开启模糊音更高了。

这个问题定一下这样的结论,不知大家是否同意:
提供模糊音的功能,但不提倡大家使用。
作者: xml00    时间: 2008-2-19 17:25
原帖由 fengchun 于 2008-2-19 17:09 发表
欣赏两位的探讨,左总说2周内会出台辅助码方案,非常期待。

期待。如果能自定义辅助码就更好了!
作者: ljdqe    时间: 2008-2-19 22:53
原帖由 中家 于 2008-2-19 17:11 发表
“模糊音的支持,其实也是降低学习成本的方案,要知道,很多地区的人要想说好普通话,代价是很高的(本人的普通话非常自信,不存在这个障碍,不用它),这不符合通过技术革新来服务于人的初衷。”

这确实是两难的选 ...

你说的很对,我自己的拼音就不过硬,虽然也试过不用模糊音,但最终放弃了。我身边的朋友用紫光基本上都是冲着他支持模糊音
作者: 步虚    时间: 2008-2-20 07:57
"整句输入,不可能保证句子的完全正确,所以一定要提供一个便捷的修正方式,包括定位、修正等"。
高见。整句输入还真有点就像人,不可能不犯错误。只能关键是看能不能在力争少犯错误的同时,快捷、方便地确定并修正错误。
作者: qdvv    时间: 2008-2-20 08:03
原帖由 fengchun 于 2008-2-19 17:09 发表
欣赏两位的探讨,左总说2周内会出台辅助码方案,非常期待。

好的辅助码可不是区区两周就能出来的,是不是早就开发了?
作者: ZXD4G    时间: 2008-2-20 09:46
误解了,咱说两周出方案,是指根据统计分析得出几个结论,例如哪种辅助码对于降低重码最有效,哪种辅助码的学习成本低等,继续完成后续的键位设计、编码实现、软件测试和发布,那可绝对不是这个期间能够搞定的,况且,按照版本规划,也不会是完成辅助码就算是一个新版本,新版中将包括其他几项功能扩增或完善。

千万别盯着“两周”这两个字,它不是一个许诺,只是想表达要形成有效的辅助体系,需要一段时间来“分析”,这还是已经有一些认识和数据基础的情况下的估计,否则,从零开始研究到分析活动告一段落,没有一两个月的投入,结果难免是滥竽充数。
作者: fengchun    时间: 2008-2-20 10:41
原帖由 ZXD4G 于 20/2/2008 09:46 发表
误解了,咱说两周出方案,是指根据统计分析得出几个结论,例如哪种辅助码对于降低重码最有效,哪种辅助码的学习成本低等,继续完成后续的键位设计、编码实现、软件测试和发布,那可绝对不是这个期间能够搞定的,况且 ...


理解理解,我也没说是要出新版,只是说方案嘛

[ 本帖最后由 fengchun 于 2008-2-20 10:44 编辑 ]
作者: xml00    时间: 2008-2-20 11:22
ldl 量 例 列 俩 俐 伶 僚 俪 俚 傈 偻 位 佬 俍 仂 僇 倆 儷 僂 僯 倰 儮 倈 儠 僆
随便举个例子,看看问题出在哪里?
上边第一、二、三位编码分别是:单字本身的声母、第一位形码的声母、第二位形码的声母。
可以看出,单字本身的读音和第二个拆分部件的读音是相同的,信息被重复提取了。所以第三个编码属于冗余码。
作者: xml00    时间: 2008-2-20 11:27
上面举例的第二个形码一般是汉字的声旁,如:里、列、两、令、丽、良等。
直接取这些字的声母就会产生冗余码,如果取其较小的部分编码(如歹、一、人等),则能避开这种情况,改善冗余码的问题。所以二笔的只取部件前两笔的做法不仅更简单,也更有效。
总的来说,自然码的取码方式是有问题的。希望紫光不要像狂拼、加加、搜狗等那样去步自然码的后尘,这么多年了,也不知道问题出在哪里!

[ 本帖最后由 xml00 于 2008-2-20 11:31 编辑 ]
作者: qdvv    时间: 2008-2-20 15:55
徐兄说的有道理。输入法纯按自然发音,由于汉字的形声字较多,会使第四码的效率不高。因此,我编的晚风,是加了一个“第四码和整字同声母时,取小”(即同音相避规则)。

取小没这个问题(我也正在编一个取小的方案——本来不打算编的,因为当时我觉得取大和取小都不错,但取小没取大直观。取大的多数字是直接取那个直接看见的部件,上手更快——但现在看来,不编,就没人编了,于是我就再次动手编了),不过,取小也有取小的问题,因为有的较大的部件是不宜拆的,肯定得列一些例外的不可拆部件才行。

二笔是不错的方案,但二笔也有二笔的问题,比如说末两码的反应不够直接,而且直接按二笔,分离重码的效率也稍差,因此,也需要加入一些字根。

感觉上述三者各有各的问题,但也各有各的好处。都行。

[ 本帖最后由 qdvv 于 2008-2-20 15:59 编辑 ]
作者: xml00    时间: 2008-2-20 16:59
小鹤的双拼加形大概也参考了丁兄的晚风,取小不取大。说明已有不少人士认识到这个问题了。开发拼音的人士对形码研究较少,盲目跟风,所以最新的输入法搜狗也采用了自然码的编码方法,这是不足取的,我倒希望紫光能另辟蹊径。

二笔编码方法的最大好处是覆盖率很高,歧义较少,绝大部分的汉字都能编码。但肯定需要加入一些字根,如果仅限于常用字重码的分离效果,我认为有5个左右的字根就解决问题了。重点当然还是解决第一位形码的问题。如果考虑生僻字(静态重码率),则要多加几个字根。

GBK字集中的汉字,左右结构的占69%,上下结构的占21.5%,包围结构的占7.5%,独体结构约占1.9%。
左右结构和包围结构的第二位形码,也应该采用部件的第一二笔作编码才比较直观;上下结构和独体字,不妨采用末二笔作为编码以避免拆分困扰。这样的规则并不复杂。

[ 本帖最后由 xml00 于 2008-2-20 17:05 编辑 ]
作者: xml00    时间: 2008-2-20 17:14
用部首方法编码,所谓取小,主要是那些容易拆开的小部件(数量是不少的),不易拆的还按简单二分的方法编码就行了,只要比原先的统一二分方法能提高一些效率就行。
作者: 中家    时间: 2008-2-20 18:12
关于辅助码是不是重点考虑一下2500个常用汉字?据有关语言专家说,这些常用字使用率在95%以上,我想把这些最常用的汉字侍候好了,应该能够解决大问题吧?
我对这些是外行,只是提一个思路,仅供专家分析




欢迎光临 华宇拼音输入法论坛 (http://bbs.pinyin.thunisoft.com/) Powered by Discuz! X3.2