关于繁体词库,目前的想法还是基于对照关系,从简体进行转换,不过对照的粒度要提高到“词”,原来只是“字”的级别,当字的对照非一对一时,笑料就爆出了。
按照这个思路,关兄只要搜集存在一对多、多对一、多对多简繁字对照关系的词,作为简繁转换的依据,似乎就行,哪些一对一、不存在歧义的,相信程序就好了,它们应该是主流吧,3000多个字间对照关系,这种简单的对照所占比例应在80%以上;为汉字注音,也是这个路子,多音字还是少数,枚举其各种读音的样例作为参考,就能在很大程度上完成词条的注音,更多的完善,可以通过引入模式,例如,“朝”字的读音,如果词中还有“暮”或“夕”,那么“朝”一般是读zhao1。
搜集复杂对照关系,正是考验一个人对繁体的熟悉程度和对文字的驾驭能力,据本人观察,关兄还是够有当量的。 |