华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 17620|回复: 8
打印 上一主题 下一主题

弱弱地問一句版主……

[复制链接]
跳转到指定楼层
1
发表于 2007-11-18 13:07:04 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
我在大字符集下造的詞,在繁體狀態下顯示混亂。如「國傢」、「佈頭」之類的。
弱弱地問一下版主或達人們:當下一個版本支持Unicode以後,這種問題還會有麼?我的詞庫會不會白造了?
2
 楼主| 发表于 2007-11-19 09:28:35 | 只看该作者
有人能幫忙回答一下麼?
3
发表于 2007-11-19 10:40:52 | 只看该作者
关于繁体词库,目前的想法还是基于对照关系,从简体进行转换,不过对照的粒度要提高到“词”,原来只是“字”的级别,当字的对照非一对一时,笑料就爆出了。

按照这个思路,关兄只要搜集存在一对多、多对一、多对多简繁字对照关系的词,作为简繁转换的依据,似乎就行,哪些一对一、不存在歧义的,相信程序就好了,它们应该是主流吧,3000多个字间对照关系,这种简单的对照所占比例应在80%以上;为汉字注音,也是这个路子,多音字还是少数,枚举其各种读音的样例作为参考,就能在很大程度上完成词条的注音,更多的完善,可以通过引入模式,例如,“朝”字的读音,如果词中还有“暮”或“夕”,那么“朝”一般是读zhao1。

搜集复杂对照关系,正是考验一个人对繁体的熟悉程度和对文字的驾驭能力,据本人观察,关兄还是够有当量的。
4
 楼主| 发表于 2007-11-19 12:09:12 | 只看该作者
不知道我理解得對不對,就是說我現在所造的詞,在下一個版本支持Unicode以後,仍舊需要注意,在繁體輸入狀態下還是有可能發生一些混亂,只不過混亂比現在少一些。
我的意思是說,比如我現在在大字符集下造詞「國家」,換成繁體輸入狀態時成為了「國傢」。當支持Unicode以後,這種問題仍舊會發生,只不過好一些,是麼?
5
发表于 2007-11-19 12:33:42 | 只看该作者
有少许偏差,补充一下:
1.unicode化不是为了解决繁体的准确性,而是解决平台的兼容性,以及增加可输入的字符数量,能增加多少,其实也很不乐观,因为,超出GBK范围的字,没有几个有权威拼音的,所以,主要还是兼容。
2.繁体输入混乱的原因是简繁对照误用,在对照时没有“词”级别的依据,发生这种张冠李戴的情形就很多,如果有依据来指示“当这个时候,应该用这个字”,就会极大地改善,当然,需要依据够多够准才行;如“国家”中的“家”,对应的繁体有两个,一个是不改变,即“家”,一个是“傢”,当没有“國家”来指示这里应该用“家”时,现在就是“傢”,而有了指示,结果将会正确;另一个例子是“范”,当表示姓氏时,繁体也是“范”,那么,就需要列举一些范姓名人,范仲淹、范文澜等等。以前,我在某个帖子中提到,微软的Word简繁转换,也不过尔尔,就是它的例词收录也欠缺得很,印象中范文澜就不认识,估计范文芳、范伟等就不够格了。
3.即便有了相当的例词(也可以称为“知识”吧),要想达到理论上的100%,也是不可能的,就是姓氏的用字,就难以穷举,但达到实际应用的99%甚至更好,还是有指望的。
4.假如否定“转换”的办法,而用单独制作“繁体词库”来实现,倒也是可行之路,不过,要构造一个适量或海量的繁体词库,工作之艰辛,从简体词库的制作经验来看,很容易类推而知,另外,软件的安装包也会增大,开玩笑地说,与“节约型“社会主旨不符,将浪费存储和网络资源,除非分为两个版本。即使这样,当输入不词库中没有的范姓人名时,还是得让用户去正确地选择”范“,而不是”範“,在这一点上,单独的”繁体词库“并没有从根本上解决用字准确性问题。

[ 本帖最后由 ZXD4G 于 2007-11-19 12:37 编辑 ]
6
发表于 2007-11-19 12:53:23 | 只看该作者
唉……都是×××惹的祸呀!你说要是当初都统一了,哪会有现在这么多问题~~
7
 楼主| 发表于 2007-11-19 12:54:13 | 只看该作者
噢,我明白和左盟主的誤差在哪裡了。
也許是我表達能力有限,而且實在是腦盲。
我是說,如果我造詞環境就是在繁體輸入狀態下,比如造「國家」一詞,我選擇的是「家」,但是紫光記憶成了「傢」。下次輸入就成了「國傢」。這種現象在下一個版本還會有麼?如果是所選字組成所選詞,不用再轉化就好了。目前這種問題在大字符集狀態下不會發生,「國家」就是「國家」。可是大字符集找繁體字太累了……
求教。
另外,不知道我所提供的臺灣教育部辭典 http://140.111.34.46/dict/ 是否對紫光編輯繁體詞有些許幫助,我覺得可以偷懶,輸入一個字,可以查找所有組詞。(反正臺灣佬的版權……)

[ 本帖最后由 關長生 于 2007-11-19 12:56 编辑 ]
8
发表于 2007-11-19 13:10:34 | 只看该作者
哦,咱也最终了解了关兄的意思,那就是动态地造词,咱以上主要谈的是相对静态地构建例词(或模式)知识库,动态层面,还真是有所疏忽,幸得上帖提出,就比较全面了——在简繁转换的例程中,要考虑一些纠错机制。

在GBK全集,或将来更大的字符集合中找字,确实比较累,这也是众口呼吁辅助码的缘由吧,以后会改善,只是如何个优选方案,暂时还没有定论,尚需两周左右的时间来进行统计分析。也许结论将是支持若干种辅助码,即使是笔划辅助,也可能支持首笔、次笔、末笔等。
9
 楼主| 发表于 2007-11-19 14:30:14 | 只看该作者
左盟主可以試試,調成繁體輸入狀態,刪除所有詞庫,然後自己在線造詞「國家」,選擇正確的字後,再次輸入「國家」,發現變成了「國傢」。凡此種種,不勝枚舉。比如「布頭」變成「佈頭」、「百里奚」變成「百裏奚」等等。而大字符集就沒問題。

我是想,能否考慮在下一個版本解決這個問題。我真的很想用繁體輸入狀態,大字符集累死了。
我認為,比如「布」和「佈」在繁體字下是兩個字,就可以分開對待。如果我選擇了前者組詞,系統記錄前者就是了,不需要轉換。

老實說,這個問題似乎只有紫光有,我試過很多輸入法,但瑕不掩瑜。
另外,懇請在下一個版本中能夠支持在動態組詞選字時順便能調整字頻。

[ 本帖最后由 關長生 于 2007-11-19 15:55 编辑 ]
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2025-12-24 05:52

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表