从目前的研究上,基本上采用了基于概率统计和基于规则两种技术路线。其中,CLAWS算法是基于概率统计的方法。具体做法是:首先对部分英文语料手工标注词性标记,然后对标注好的语料进行统计,得到标记与标记同现的频率,最终产生一个同现概率矩阵。在词性标时,先取一个两端为非兼类词而中间为若干兼类词的片段在(SPAN)。在SPAN中,词对应 的词性标记组合可以被视为多条路径。根据概率矩阵计算每条路经的概率,并选择概率最大的路径上的词性标记作为兼类词的标记,从而实现了对兼类词的标注。
一些系统对于汉语词性标注问题采用了CLAWS算法的思想,同时结合了每个词的各个词性标记具有不同概率的特点,取得了较好的标注效果。这种统计方法在训练预料规模足够大的情况下(所要求的训练集规模应该与词性标记集的大小有关),限于计算量成指数增长,一般采用bi-gram(二元语法,即仅计算相邻标记的概率),这使其正确率受到一定影响。基于规则的方法通过考虑上下文中的词及标记对兼类词的词性,常常作为基于概率统计方法的补充。将统计方法和概率方法相结合被认为是解决词性标注问题的最佳手段。
目前,规则的获得一般是靠人工整理集成。但存在两个方面的问题。一是从规则的应用范围上看,靠人工方法只可能产生一些共性的规则,不可能产生数量较多的针对个别情况的个性规则。而个性规则尽管应用范围小,但也是保证正确率的重要手段。二是人工方法产生规则的准确率有待验证。因此,在统计方法正确率不易再提高的前提下,能否自动高效的获取规则是实现汉语词性标注中的关键问题。
利用文本知识发现来研究词及词性的模式序列对词性的影响是非常有新意的研究,这与人在根据上下文对词性的判断方法是一致的,即不但根据上下文中的词、词性,而且可以根据二者的组合来判断某词的词性。在统计语料规模较大的情况下,给定最小支持度及最小可信度后,首先发现大于最小支持度常用模式集,然后生成关联规则。而若此规则的可信度大于最小可信度,则得到词性规则。只要最小可信度定义的足够高,获得的规则就可以用于处理兼类词的情况。这样获得的规则能够真正作为概率方法的补充,从而较好的解决汉语词性标注问题。但由于这种规则的条件依赖于词与词性的各种组合,同时又在文本数据中进行发现,这使得其发现过程比一般在数据库中的知识发现的过程复杂得多。
|