华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
楼主: 京城秀水
打印 上一主题 下一主题

v6.6官方发布词[附录最新简繁体字频修正版6.6.0.32]

[复制链接]
31
发表于 2009-12-30 10:40:48 | 只看该作者
看看是不是完美了,永远支持紫光!
32
发表于 2009-12-30 11:14:44 | 只看该作者
谢谢332211给出的测试,我们已经修改,会推出一个版本v6.6.0.34,但由于类似的错误还会存在,我们现在数据处理方式还有点原始,只能逐步接近于完美,不可能在短期内达到完美。所以计划将修改后的v6.6.0.34作为正式版发布了。
33
发表于 2009-12-30 11:28:54 | 只看该作者
332211元老确实是个细心、耐心的人,咱很认同,也稍有区别:
1.简体字的目标是要排除明确的繁体字和异体字,以及字词典中查到的“日本用简体汉字”、“日本用汉字”、“日本和字”、“韩文吏读字”等,典型的简繁还好办一些,最麻烦的异体字的认定,好些字词典中的凡例、解释和文字使用现状冲突,不同的来源也有冲突(A说某字是正体,其它为异体,B说得和A相反或不全相同)。处理这些矛盾的时候,参考了BIG5字符集的收字情况,依据是“BIG5为港台通行交流途径,它不收编的字,其异体的成分更大一些”。
2.繁体字的目标也不是弄成一个大杂烩,而是要考虑“现在通行或活跃”这个原则,一些上面帖子中提到的“古同xx”之类的,也不大想置入这个集合,它们将非简非繁,只有在大字符集中才能输入;“大字符集”这个概念被拓展了,原来是GBK的21003字,现在是CJK的75000多字,目前有拼音的是26000多字,因多音字之故,汉字拼音条目为接近32000。
3.简繁设定的时候,尽可能依据充分,一些眼下未能判定的,处于“亦简亦繁”状态,等待继续审订完成后,争取准确定性。

言不尽意之处,待发布后(仍会有瑕疵,但应该没有太大的问题了)继续沟通。
34
发表于 2009-12-30 11:42:30 | 只看该作者
确实很难。。。
35
发表于 2009-12-30 12:06:40 | 只看该作者
鑫字被归为了繁体
应该是传承字吧
36
发表于 2009-12-30 12:15:56 | 只看该作者
原帖由 krsun 于 2009-12-30 12:06 发表
字被归为了繁体
应该是传承字吧

果然在简体模式下找不到!另,“欣”仅归入简体集合也欠妥。

[ 本帖最后由 sanwsw 于 2009-12-30 12:18 编辑 ]
37
发表于 2009-12-30 12:19:41 | 只看该作者
已经修正“鑫”,不算这个,和.31相比,另有133个字的属性修订。
“欣”也改了,BIG5集合的13000多字至少具有“繁体”属性。

[ 本帖最后由 ZXD4G 于 2009-12-30 12:22 编辑 ]
38
发表于 2009-12-30 15:20:58 | 只看该作者
原帖由 ZXD4G 于 2009-12-30 12:19 发表
已经修正“鑫”,不算这个,和.31相比,另有133个字的属性修订。
“欣”也改了,BIG5集合的13000多字至少具有“繁体”属性。

应该说和.32相比有133个属性修订,和.31相比就更多了。
39
发表于 2009-12-30 16:21:41 | 只看该作者
file:///C:/Documents%20and%20Settings/Administrator/桌面修正版6.6.0.32在不装“大字符集”的情况下已经感觉到完美了(我个人的感觉)在候选字里边不但没有混杂繁体更没有了天窗问题,天窗是出现在偏旁部首查字里边。

[ 本帖最后由 wqpn 于 2009-12-30 16:23 编辑 ]
40
发表于 2009-12-30 17:30:07 | 只看该作者
原帖由 332211 于 2009-12-30 17:21 发表
对于不明白是属于“简”还是“繁”的,请百度一下,这不难呀!



百度很多东西不是标准。
41
发表于 2009-12-30 18:12:36 | 只看该作者
火星文输入法是一个外挂插件,能将任何输入法输入的正常文字变成那些奇奇怪怪的字,所以跟任何一个输入法都没有关系,要怪就怪那个“火星文输入法”~~


提供资料一说,官方的人早就要你的邮箱了,好像一直没有得逞
42
发表于 2009-12-30 18:26:22 | 只看该作者
332211已经是论坛元老级别了.真的是好快啊.感谢你对华宇拼音的持续关注和大量的良好建议!!!
43
发表于 2009-12-30 18:36:24 | 只看该作者
原帖由 sunmd 于 2009-12-29 21:40 发表

在一些资料中查看定为“义未详”的都归 ...
这个原则不错。
44
发表于 2009-12-30 18:42:58 | 只看该作者
原帖由 332211 于 2009-12-30 10:50 发表
听说过“百寿图”么?每个“寿”字都写法不同,异体字而已,都纳入“简”体字符集中吗?
龙有几种写法、虎有几种写法、福有几种写法、……,中国的异体字多了,类似于问错别字有多少?能说得清楚么?数不胜数哇!! ...
如果Unicode有百种“寿”字,只怕你要把它们都归到“繁体”。问题是大陆用户日常不用这些字,难道港台用户日常就用这些字吗?你想“净化”简体和大字符集,却把繁体集合当大杂烩。
45
发表于 2009-12-30 18:50:21 | 只看该作者
原帖由 332211 于 2009-12-30 17:55 发表
都是现状“无所不能”的输入法给整出的“好事”,看看吧:
要不细看,还以为是洋鬼子的帖子呢!但其实不过是假洋鬼子的帖子哦。
这些东西早在紫光输入法改名“紫光华宇”前就有了。术业有专攻,有折腾“火星文”的,也有像紫光华宇这样认真处理汉字的(无论所处理的字是日常生活中的还是故纸堆里的)。
46
发表于 2009-12-30 18:52:19 | 只看该作者
原帖由 kingdick 于 2009-12-30 17:30 发表



百度很多东西不是标准。
岂止百度不足为训,金山、汉典、叶典都只能参考,因为它们取材良莠不齐。
47
发表于 2009-12-30 18:58:07 | 只看该作者
原帖由 332211 于 2009-12-30 10:16 发表
奨——这个应归为繁体。
那就违背了你在36楼对“繁体”的定义。“奨”大陆不用,在港台也不是“正体字”。
48
发表于 2009-12-30 19:03:07 | 只看该作者
原帖由 332211 于 2009-12-30 09:12 发表

“飝”字应该出现在“大字符集”(若确定是“飞”的繁体的话,就不该至于该集合中)与“繁体”字符集中,而将其排斥在“繁体”字符集显然是不合适的,应该修正。
这个字没有繁简的问题,要么简体、繁体同时收,要么同时不收。仅仅因为“飛”有简化字就把“飝”归入繁体,那“漂”“倪”“鑫”“瞻”都要排除在简体之外了。
49
发表于 2009-12-30 20:21:28 | 只看该作者
终于出正式版了,不求字库有多大,但求速度快,用着稳定
50
发表于 2009-12-30 22:28:36 | 只看该作者
理解楼主
51
发表于 2009-12-31 20:26:43 | 只看该作者
原帖由 332211 于 2009-12-31 19:03 发表
呵呵,还是以你的判断逻辑来掌你自己的嘴吧!
你连百度、金山词霸、汉典、新华字典、……都不认为有权威性了,仅可作为供参考,怎么单就这个“奨”字你就敢如此武断地说在台湾、香港、海外都不用呢?你比起国内的所有字典都要权威吗?你的依据是什么?那你认为在大陆用吗?你认为是中国字吗?都不用的话,那究竟是谁用的呢?是杜撰出来的吗?你的话就比国内所有的字典都更具有“权威性”吗?恐怕除了你的盲目自信以及IQ<30的之外,没有人会相信你的判断是正确的哦。


一、我没说过《新华字典》不具权威性。
原帖由 mmm 于 2009-12-30 18:52 发表
岂止百度不足为训,金山、汉典、叶典都只能参考

二、大陆权威字典没有免费的在线版,台湾有。你可以去查《国语小字典》http://dict.mini.moe.edu.tw/cgi-bin/gdic/gsweb.cgi?o=ddictionary,看看以何为正。
三、我没提过“海外”。
原帖由 mmm 于 2009-12-30 18:58 发表
那就违背了你在36楼对“繁体”的定义。“奨”大陆不用,在港台也不是“正体字”。

不过,日语倒是以“奨”为正。http://www.bunka.go.jp/kokugo/main.asp?fl=show&id=1000003885&clc=1000000068&cmc=1000003929&cli=1000002682&cmi=1000003875
四、“奨”当然是“中国字”。《汉语大字典》:
52
发表于 2009-12-31 20:32:00 | 只看该作者
原帖由 332211 于 2009-12-31 19:12 发表
欲加之罪,何患无辞。
我说过吗?我表示过要将寿字的其它写法统统都归入繁体么?
你要驳别人的观点,你就该先弄清楚别人的观点是什么,仔细看看前面的帖子,好好领会一下我的本意,然后再来争论,别乱弹琴,好不好?我这要求不高吧?

http://bbs.unispim.com/viewthread.php?tid=8352
原帖由 332211 于 2009-12-28 21:46 发表
而“繁体”字则包括了所有除了简体字之外的所有汉字。

本主题
原帖由 332211 于 2009-12-30 10:12 发表
至于“繁”这个字符集就该包括所有的汉字去除明显的“简”体字即可。
53
发表于 2009-12-31 22:44:47 | 只看该作者
没有敢说网上的资料不权威,但咱真的没有见过哪一个特权威,在一些有争议的字儿上,多种来源的资料就存在矛盾,取舍颇费精神,结果也同样不敢称特权威。个人感觉,《现代汉语词典》、《新华字典》、《汉语大词典》的可靠性要高于词霸、汉典,还要考虑BIG5字符集这个繁体界的重要参考。
例如:“么”的繁体究竟是“麽”呢?还是“麼”呢?根据《汉语大词典》的凡例和字义,前者为正体,后者为异体,但前者不在BIG5中,意即港台人士用的是后者,至少电子化的文字表述是这样。
这个现象给繁体属性的设定造成了一些困扰,涉及到繁体字的目标,究竟是面向古代典籍的文字研究呢?还是照顾当今大陆与港台交流呢?我们的想法是活跃者优先,也就是满足现代繁体交流。

另外,.38版比.35还增加了一个类推简化字(U+2AA17——&#174615;——jue1),这个字是在审订“屩”的简繁时,翻阅《现代汉语词典》2002年版时看来的,请注意,新加的这个字隶属于unicode CJK Ext-C(U+2A700~U+2B734),这表达了一个趋势,即现代汉语词典已经超越了传统的GB2312,乃至GBK,也就暗示我们,不能再把GB2312当简体了;又闻通用规范汉字表之七八千字,也会有大量的GBK外的字儿,诸君作何猜想?

最后,今天手查《现代汉语词典》,颇感效率低下,对于校正大量字条,很是艰难,哪位仁兄有电子版的,可否厚赠?2005版更好,纯文本格式更好。
54
发表于 2009-12-31 23:42:03 | 只看该作者
四哥,有时间收邮件。
55
发表于 2010-1-4 21:13:00 | 只看该作者
原帖由 332211 于 2009-12-31 21:50 发表
在中国汉字一般都默认归类为简体与繁体两类,这你该知道吧?在人们的观念中并没有既不属于简体又不属于繁体的汉字吧?有吗?如有的话,称其为什么呢?真是在这个意义上才有上面的说法,这你也奇怪?你没有在大陆生活过?不明白麽?

原帖由 332211 于 2009-12-31 21:59 发表
汉字非简体即繁体,这是大家所默认的。至少大陆都如此默认了,至于异体字咱没有研究过港台是如何处理的,是承认呢还是一概不承认。因此对繁体的处理咱并没有多少涉及,主要就简体这个字符集说事。由于这里分三个字符集,就该优化设置,至于繁体集合,就算是混杂若干字也无大碍,毕竟这个是主要是为大陆用户设计使用的,不是特意为港台设计的,有啥可大惊小怪的呢?

原帖由 332211 于 2009-12-31 22:02 发表
简体、繁体原本都是中国文字,只是大陆现状的使用简体字,而港台才使用繁体字,中国大陆用简体字,余下的放入繁体集合中有何不可?也值得那个mmm大动干戈来兴师问罪么?


不要妄议别人,也别去代表别人。“默认归类为简体与繁体两类”、“没有既不属于简体又不属于繁体的汉字”、“汉字非简体即繁体”可能只是你的观点。试问“紫光”二字是简体还是繁体?
汉字并不能依繁简划分为两类,未被简化的传承字两岸都在用。另外,大陆用的不叫“简体字”,而叫“简化字”。(“侭”是“儘”的简体字,而《简化字总表》“儘”和“盡”合并简化为“尽”。)大陆用的也不仅仅是简化字,还有传承字(不然,“紫光”两个字你也别打了),两者合起来,大体就是IT界创造的“简体中文”这一术语所涵盖的汉字范围。
既然做了繁体模式,当然要做好。港台怎么处理你没研究过就别说“余下的放入繁体集合”这种话。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2026-2-10 22:56

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表