华宇拼音输入法论坛

标题: Unicode_GB18030编码对应表(更新5) [打印本页]

作者: wangyanhan    时间: 2014-2-5 22:18
标题: Unicode_GB18030编码对应表(更新5)
本帖最后由 wangyanhan 于 2014-3-17 12:26 编辑


Unicode_GB18030编码对应表(更新5)


这是断断续续花了半年多时间收集整理出来的《Unicode/GB18030编码对应表》,自以为是最全的,权当春节礼物放出来共享呵呵!

制作本表的起因是——一直只能在网上搜集到扩展B区以内的Unicode编码资料,因此就产生了自己动手补齐的念头。

当CJK的Unicode编码搜集整理完工后,发现GB18030编码的缺口更大。据原官方资料介绍:GB18030-2000含常用非汉字符号和27533个汉字(包括部首、部件等)的编码;GB18030-2005在GB18030-2000的基础上增加了42711个汉字和多种我国少数民族文字的编码。但俺在实际中发现,当前已知的GB18030编码远远不止这些……

(一)本码表介绍:
1、参照“Unicode 6.3.0”和“GB18030”最新编码制作,Unicode使用的是16进制统一码。
2、涵盖CJK全部汉字和构形部件,未收录标点符号、特殊符号、非汉字符号和少数民族文字。合计76131字。
3、按Unicode编码排序。

(二)目录:
1、中日韩扩展部首(116字)
2、康熙字典部首(214字)
3、表意文字描述字符(12字)
4、中日韩笔画(36字)
5、中日韩统一表意文字扩展A区(6530字)
6、中日韩统一表意文字(20940字)
7、Unicode私用区部件及汉字(659字)
8、中日韩统一表意文字扩展B区(42711字)
9、中日韩统一表意文字扩展C区(4149字)
10、中日韩统一表意文字扩展D区(222字)
11、中日韩统一表意文字增补集(542字)

(三)示例:







(四)附件下载:

◆Unicode_GB18030编码对应表_更新5.rar (772.18 KB, 下载次数: 9028)

空附件,意在保存下载数呵呵!.zip (162 Bytes, 下载次数: 2288)

“更新5” 详细说明在下面。

Unicode_GB18030编码对应表(更新1)

(一)更新内容:
━━━━
更新列表
━━━━
1、2014.2.6    完成第一稿。
2、2014.2.21   增“12、增补私用A区(73字)”,合计76204字。     
━━━
目  录
━━━
◆1、中日韩扩展部首(116字)
◆2、康熙字典部首(214字)
◆3、表意文字描述字符(12字)
◆4、中日韩笔画(36字)
◆5、中日韩统一表意文字扩展A区(6530字)
◆6、中日韩统一表意文字(20940字)
◆7、Unicode私用区部件及汉字(659字)
◆8、中日韩统一表意文字扩展B区(42711字)
◆9、中日韩统一表意文字扩展C区(4149字)
◆10、中日韩统一表意文字扩展D区(222字)
◆11、中日韩统一表意文字增补集(542字)
◆12、增补私用A区(73字)

(二)12、增补私用A区(73字)预览图:


(四)推荐使用“BabelPad 统一码文字编辑器”浏览:
    本《Unicode_GB18030编码对应表》,内含Unicode超大字符集字符多,因此用普通txt文本编辑器打开时,就会感到速度较慢。有很多汉化的txt文本编辑器,和CJK全集字符的兼容性也不太好。   
    推荐使用“BabelPad 统一码文字编辑器”浏览这一《Unicode_GB18030编码对应表》。“BabelPad 统一码文字编辑器”的主要优点如下:
    1、能以秒级速度打开100M以上的txt文件。和CJK全集字符的兼容性良好。
    2、把光标放在某一字符的前面,在状态栏可显示该字符的内码、字符名称及它的汉语拼音。
    3、软件内置有“字符映射表”、部首拼音检索、众多的转换功能。
    4、附件下载:
百度云网盘_sanwsw分享:
http://pan.baidu.com/s/19oOAQ
BabelPad6.3.0.0.rar
文件大小:1.99M(单文件版)
分享时间:2013-10-13 16:28

Unicode_GB18030编码对应表(更新2)
━━━━
更新列表
━━━━
1、2014.2.6    完成第一稿。
2、2014.2.21   增“12、增补私用A区(73字)”,合计76204字。     
3、2014.2.22   增Unicode编码区块英文名。

更新2预览图:


附件下载:仍然在原下载链接。

Unicode_GB18030编码对应表(更新3修改)

━━━━
更新列表
━━━━

1、2014.2.6    完成第一稿,合计76131字。
2、2014.2.21   增“12、增补私用A区(73字)”,合计76204字。
3、2014.2.22   增Unicode编码区块英文名。
4、2014.2.26   增“7、Unicode私用区部件及汉字”80字,合计76284字。

说明:
昨天放出的 “(更新3)” 稿,在GB18030编码后,还新增了第 “ ❸ ” 项,对37996个汉字加注了汉语拼音。因制作匆忙,错误不少,故今天又放出了 “(更新3修改)” 稿,删除了第 “ ❸ ” 项新增的汉语拼音。特此说明。

更新3预览图——部分新增的私用区汉字:



附件下载:仍然在原下载链接。↑↑↑↑↑

Unicode_GB18030编码对应表(更新4)

说明:

1、参照“Unicode 6.3.0”和“GB18030”最新编码制作,Unicode使用的是16进制统一码。
2、涵盖CJK全部汉字和构形部件,未收录标点符号、特殊符号、非汉字符号、和少数民族文字。合计76914字。
3、私用区汉字的汉语拼音源于“字海网、叶典网”,并用《汉语大字典》的汉语拼音校核。
4、“中日韩兼容表意文字”区和“中日韩统一表意文字增补集”区多为兼容变体汉字,这些汉字的汉语拼音,是依照本体汉字语音信息加注的。
5、正文按Unicode编码排序。
6、用文本编辑器查找字头时,在字头后加一个半角空格,可提高查找准确性。

━━━━
更新列表
━━━━

1、2014.2.6    完成第一稿,合计76131字。
2、2014.2.21   增“12、增补私用A区(73字)”,合计76204字。
3、2014.2.22   增Unicode编码区块英文名。
4、2014.2.27   增“7、Unicode私用区部件及汉字”80字,合计76282字。
5、2014.3.5    ①增“7、Unicode私用区部件及汉字”159字、“8、中日韩兼容表意文字”汉字473个,合计76914字。②增“Unicode 6.3.0”数据库语音信息(汉语拼音)37956字,增私用区汉字汉语拼音236字,增中日韩兼容表意文字汉语拼音454字,增“12、中日韩统一表意文字增补集”汉语拼音475字。合计汉语拼音39121字。③在目录和区块标题中增加了“区块码段”信息。

更新4新增内容预览图:



附件下载:
仍然在原下载链接。↑↑↑↑↑

Unicode_GB18030编码对应表(更新5)

说明:

1、参照“Unicode 6.3.0”和“GB18030”最新编码制作,Unicode使用分别10、16进制两种统一码。
2、涵盖CJK全部汉字和构形部件,未收录标点符号、特殊符号、非汉字符号、和少数民族文字。合计76965字。
3、汉语拼音大部分源于“Unicode 6.3.0”数据库语音信息。私用区类推简化字的汉语拼音源于“字海网、叶典网”,并参照《汉语大字典》中的繁体字校核。“中日韩兼容表意文字”区和“中日韩统一表意文字增补集”区多为兼容变体字,这些字的汉语拼音,是依照本体汉字语音加注的。
4、正文按Unicode编码排序。10、16进制统一码使用都很普遍,且10进制码和网页码数字相同,因此将二者皆录入。
5、私用区有一部分部件和汉字,需在超大字符集支持包“Unifonts 6.0”下,安装2013版“SunmanPUA”字体后才能显示。
6、用文本编辑器查找字头时,在字头后加一个半角空格,可提高查找准确性。

━━━━
更新列表
━━━━

1、2014.2.6    完成第一稿,合计76131字。
2、2014.2.21   增“增补私用A区(73字)”,合计76204字。
3、2014.2.22   增Unicode编码区块英文名。
4、2014.2.27   增“私用区部件及汉字”80字,合计76282字。
5、2014.3.5    ①增“私用区部件及汉字”159字、“8、中日韩兼容表意文字”汉字473个,合计76914字。②增“Unicode 6.3.0”数据库语音信息(汉语拼音)37956字,增私用区汉字汉语拼音236字,增中日韩兼容表意文字汉语拼音454字,增“12、中日韩统一表意文字增补集”汉语拼音475字。合计汉语拼音39121字。③在目录和区块标题中增加了“区块码段”信息。
6、2014.3.16   ①增“表意文字增扩展A区”52字,合计76965字。②增“表意文字增扩展A区”汉语拼音52字,“〇”拼音一字,合计汉语拼音39174字。③修改错误16进制\u码一处。④增Unicode 10进制统一码。

“更新5”预览图:



附件下载:
仍然在最上面下载。↑↑↑↑↑

作者: wangyanhan    时间: 2014-2-6 12:37
谢谢野风管理员节假日光顾本帖,为本帖贴金助威呵呵!
作者: 野风    时间: 2014-2-6 13:41
呵呵!不好意思,忘记顶帖了!
作者: ljdqe    时间: 2014-2-6 15:00
是啊,收藏了,忘记顶贴了,补上
作者: sanwsw    时间: 2014-2-9 10:20

作者: 野风    时间: 2014-2-9 10:41
老王兄的新头像很漂亮!o(∩_∩)o
作者: 紫光蓝天    时间: 2014-2-9 12:08
老王,我认为这是本版最好的帖子,
并首次运用置顶权利,
给您置顶
作者: 野风    时间: 2014-2-9 14:21
上海中午开始下雪的。还下得不小,因为是白天,积不起来。不过现在已经不下了。
作者: wangyanhan    时间: 2014-2-9 14:35
本帖最后由 wangyanhan 于 2014-2-9 15:53 编辑
紫光蓝天 发表于 2014-2-9 12:08
老王,我认为这是本版最好的帖子,
并首次运用置顶权利,
给您置顶
热烈祝贺蓝天版主在所辖板块内首次行使置顶职权!

对卑帖能享此殊荣深表衷心的感谢呵呵!
作者: 紫光蓝天    时间: 2014-2-9 14:44
你们那里下雪,我这里下雨
作者: wangyanhan    时间: 2014-2-9 15:47
野风 发表于 2014-2-9 14:21
上海中午开始下雪的。还下得不小,因为是白天,积不起来。不过现在已经不下了。

陈兄管座:
在网上找了一下,没有比俺那个原头像更好的雪景了。因为那款动画图片是用拍摄出来的图片叠加制作的,所以很逼真!
俺把自己的头像换了,把那个原头像送给您呵呵!



冬雪gif.zip (56.84 KB, 下载次数: 1673)


作者: wangyanhan    时间: 2014-2-9 15:50
紫光蓝天 发表于 2014-2-9 14:44
你们那里下雪,我这里下雨

蓝天版主:从宏观说,这就是 “雪雨交加” 呵呵!
作者: wangyanhan    时间: 2014-2-9 16:31
@野风

野风  老王兄,你也没有必要把自己的头像换了啊!  发表于 8 分钟前

野风  谢老王兄了!o(∩_∩)o  发表于 8 分钟前

回复:俺自己不用那个头像没关系的。和论坛官员的头像雷同了不太好,似乎有点 “犯上” 呵呵!


作者: wangyanhan    时间: 2014-2-9 18:31
@野风

回复:我不能“抢夺”啊!呵呵。  发表于 半小时前

看陈兄管座说到哪里去了,俺送的,不存在 “抢夺” 之说啊呵呵!
作者: 紫光蓝天    时间: 2014-2-10 08:32
何为CJK?
原来CJK 乃是
中文(Chinese)
日文(Japanese)
韩文(Korean)
三国文字的缩写
作者: bbc0556    时间: 2014-2-10 08:39
不错,相当有价值。
帮顶了。
楼主是干什么工作的?怎么又闲情趣志收集这些东西?
作者: wangyanhan    时间: 2014-2-10 13:45
本帖最后由 wangyanhan 于 2014-2-10 13:54 编辑
紫光蓝天 发表于 2014-2-10 08:32
何为CJK?
原来CJK 乃是
中文(Chinese)
蓝天版主所言极是呵呵!

下面是一款没有汉化编码区名称的字符映射表截图。红框中显示的,是4个紧紧相连区块—— “ 扩展B区、扩展C区、扩展D区、增补集” 的条目。



在很多资料中,也使用这种表达式—— “ Ext-A、Ext-B、Ext-C、Ext-D ” 。

作者: bbc0556    时间: 2014-2-11 15:55
呵呵,楼主年纪这么大了啊~~
应该是对中国的文字艺术颇有一番研究的。
我只是一个20多岁的软件开发人员。
作者: wangyanhan    时间: 2014-2-11 17:02
本帖最后由 wangyanhan 于 2014-2-11 17:11 编辑
bbc0556 发表于 2014-2-11 15:55
呵呵,楼主年纪这么大了啊~~
应该是对中国的文字艺术颇有一番研究的。
我只是一个20多岁的软件开发人员。
谈不上对文字有研究,两年多以前进加加论坛后,学到了一些文本处理和码表制作技巧。

加加是个老牌拼音输入法,曾有一段辉煌的历史,因此在论坛中有很多大师级作品,如果用心研究就会受益匪淺呵呵!

俺女婿也是摆弄软件的,2001年的计算机专业,现在都快40岁了,不过在六七年前就转搞了管理。



作者: bbc0556    时间: 2014-2-12 10:45
wangyanhan 发表于 2014-2-11 17:02
谈不上对文字有研究,两年多以前进加加论坛后,学到了一些文本处理和码表制作技巧。

加加是个老牌拼音输 ...

呵呵,都是元老级别的啊~~
作者: wangyanhan    时间: 2014-2-12 16:34
bbc0556 发表于 2014-2-12 10:45
呵呵,都是元老级别的啊~~

“元老” 级别——这都是一类务虚的东西啊呵呵!你看,俺的坛龄比你小,无非是在这一年多的时间里 ,发的帖子、图片、附件多呵呵!
作者: wangyanhan    时间: 2014-2-21 18:41
这个 “丰” 字不出头的 “ 帮 ” 字头的汉字部件,以前一直没找着,原来在这里躲藏着呵呵!


作者: wangyanhan    时间: 2014-2-22 01:24
《Unicode_GB18030编码对应表》再次更新

━━━━
更新列表
━━━━
1、2014.2.6    完成第一稿。
2、2014.2.21   增“12、增补私用A区(73字)”,合计76204字。     
3、2014.2.22   增Unicode编码区块英文名。

更新2预览图:


人工顶一下。附件下载仍在一楼   
↑↑↑↑↑

作者: 紫光蓝天    时间: 2014-2-26 13:09
看了一下老王的注音
发现有的字依然有注音的可能

雑 ❶96D1 ❷EB6A

这个字康熙字典说
是杂的通俗写法
更为重要的是
日语的杂就写成雑
我的帖子“日本汉字短语”
就有这个字

老王可参考我发的两个帖子
为更多的汉字标上注音

日本汉字短语(蓝天双拼·紫光双拼·全拼)
http://bbs.unispim.com/forum.php?mod=viewthread&tid=29379

港台汉字短语(蓝天双拼·紫光双拼·全拼)
http://bbs.unispim.com/forum.php?mod=viewthread&tid=29390
作者: wangyanhan    时间: 2014-2-26 13:32
紫光蓝天 发表于 2014-2-26 13:09
看了一下老王的注音
发现有的字依然有注音的可能

蓝天版主可以的,您提供的资料,俺立即下载收藏!

这个《Unicode/GB18030编码对应表》里的汉语拼音,是完全照搬 “Unicode 6.3.0” 版语音信息弄出来的,还没俺原先制作的“【Unicode CJK 拼音表_增补】” 多(41138个),《Unicode CJK 拼音表》用的是 “Unihan Database Lookup” 数据库中的语音信息。

主要是时间和精力的问题,先慢慢的搜集,然后再慢慢整理吧呵呵!


作者: wangyanhan    时间: 2014-2-26 13:59
@紫光蓝天  

譬如说 “ 王 ” 字吧, 在 “Unicode 6.0.0” 版的语音信息里,都有三个拼音:wáng/wàng/yù ,可到 “Unicode 6.3.0.0 ”  版里,却把 yù 音给删除了。在《汉语大字典》里,“王” 也有 yù 的拼音,出处清楚。可“Unicode 6.3.0.0 ”  版就是删了,鬼知道原因何在呵呵!

作者: 紫光蓝天    时间: 2014-2-26 14:13
老王,看来你选用的资料是很规范的,很好
我那两个码表上的字是现今日本、港台仍在使用的
所以也是比较常用的
一会我比较一下
看缺了多少
估计不多
作者: 紫光蓝天    时间: 2014-2-26 16:17
老王:
和 日本汉字短语 对照了一下
gb2312常用汉字内
缺读音汉字298个
在楼下贴出
(其中多音字只标了一个读音)

作者: 紫光蓝天    时间: 2014-2-26 16:18
ba 抜
bai 拝
bang 幇
bian 邉
bian 変
bian 辧
bian 辺
bing 餠
bu 歩
ce 厠
ceng 曽
cha 挿
chai 犲
chan 懴
chang 甞
chao 巣
chen 鎭
cheng 乗
chi 鵄
chi 遅
chi 歯
chuan 伝
cong 聡
cong 従
cu 卆
cuan 攅
cuan 簒
cui 忰
cui 翆
cui 粋
cuo 嵳
da 逹
dai 帯
dan 単
dan 弾
dao 嶋
dao 稲
de 悳
de 徳
di 逓
dian 巓
die 畳
die 疂
die 疉
dong 鶫
dou 闘
dou 鬪
dou 読
du 涜
dui 対
duo 駄
e 悪
e 蕚
er 児
er 尓
er 弐
er 貮
fa 発
fa 髪
fan 飜
fei 廃
fo 仏
fu 釡
fu 冨
gai 葢
gai 漑
gao 皐
geng 羮
geng 頚
guai 枴
guan 観
guan 潅
guang 広
gui 帰
gui 亀
han 凾
hu 壷
huai 懐
huai 壊
huan 歓
huan 渙
hui 恵
hui 絵
ji 喞
ji 撃
ji 韲
ji 鶏
ji 羇
ji 剤
ji 済
ji 継
ji 曁
ji 斉
jia 仮
jia 頬
jian 殱
jian 倹
jian 検
jian 鹸
jian 剣
jian 剱
jian 賎
jian 劒
jiang 醤
jiao 撹
jiao 覚
jie 掲
jie 畍
jin 菫
jin 侭
jing 亰
jing 経
jing 浄
jiong 烱
ju 倶
ju 挙
ju 欅
ju 拠
juan 圏
juan 巻
jue 絶
jun 皹
kuang 昿
kuang 砿
kuang 鉱
kuo 拡
la 蝋
lai 頼
lai 瀬
lan 覧
lao 労
le 楽
lei 塁
lei 涙
li 茘
li 暦
li 歴
li 檪
lian 聨
lian 錬
liang 両
liang 輌
lie 猟
ling 霊
ling 齢
liu 畄
liu 璢
liu 澑
long 篭
long 滝
mai 売
man 満
mao 貎
me 麼
meng 萠
mian 麺
mo 黙
mu 嘸
mu 畆
nang 嚢
nao 悩
nao 脳
nao 閙
niang 嬢
niang 醸
nie 噛
ning 侫
ou 鴎
po 醗
po 溌
pu 舗
qi 気
qian 銭
qian 濳
qian 籖
qiu 逎
qu 駆
qu 駈
quan 権
quan 勧
rang 穣
rang 壌
rang 譲
ren 仭
rong 栄
run 閠
sao 掻
sao 騒
sao 鯵
se 渋
shao 焼
she 舎
she 渉
she 摂
shen 愼
sheng 縄
sheng 剰
shi 実
shi 丗
shi 亊
shi 釈
shou 痩
shou 獣
sou 捜
su 粛
sui 髄
sui 砕
sui 穂
suo 簔
teng 籘
tie 鐡
ting 聴
ting 廰
tou 偸
tu 図
tuan 団
tun 呑
tuo 楕
wa 膃
wan 晩
wang 徃
wen 穏
wu 呉
xi 渓
xi 煕
xi 犠
xian 繊
xian 纎
xian 険
xian 顕
xian 県
xian 陥
xiang 郷
xiao 暁
xiu 繍
xu 続
xu 聟
xun 勲
xun 薫
ya 圧
ya 唖
ya 亜
yan 塩
yan 厳
yan 巌
yan 焔
yan 鳫
yan 験
yan 艶
yang 様
yao 尭
yao 揺
yao 薬
ye 曵
yi 壱
yi 訳
yi 駅
yin 隠
yin 飮
ying 応
ying 桜
ying 鴬
ying 蛍
ying 営
ying 蝿
yu 娯
yu 楡
yu 喩
yuan 渕
yuan 縁
za 雑
zan 讃
zang 賍
zang 弉
zang 臓
zao 竃
ze 択
ze 沢
zen 譛
zeng 増
zhai 斎
zhan 桟
zhan 戦
zheng 徴
zhi 値
zhu 鋳
zhuan 専
zhuan 転
zhuang 荘
zhun 凖
zi 姉
zong 惣
zong 縦
zou 赱
zu 爼
zuan 鑚
zuan 纉
zui 酔
作者: 紫光蓝天    时间: 2014-2-26 16:33
老王,你的女儿、女婿都在日本生活过
相信他们看了这些字
都会觉得十分常用
作者: wangyanhan    时间: 2014-2-26 19:50
紫光蓝天 发表于 2014-2-26 16:17
老王:
和 日本汉字短语 对照了一下
gb2312常用汉字内

蓝天版主:

把您的列表和“Unihan Database Lookup”数据库的语音信息对照了一下,发现您列举的数据在“Unihan Database Lookup”数据库中都是有的,但在“Unicode 6.3.0.0”版的语音信息中却没有。

看来,还是“Unihan Database Lookup”数据库的语音信息详细。难怪戴老师在《【Unicode CJK 拼音表】——含41138个汉字的拼音》帖子(http://bbs.unispim.com/forum.php?mod=viewthread&tid=31644&extra=page%3D1)的2楼,有“这份资料或是有拼音汉字最多的资料了。希望华宇拼音开发组看到并利用起来。”的说法。

今后有时间,还是要用“Unihan Database Lookup”数据库的语音信息,来充实《CJK/Unicode/GB18030编码对应表》中的汉语拼音。当然,也需要用您提供的语音信息及网上搜罗的其它正确语音信息,来进一步完善《编码对应表》中的汉语拼音。

——————————————————————————
附:《蓝天列表》、《Unicode CJK 拼音表》对照结果
——————————————————————————

《蓝天列表》、《Unicode CJK 拼音表》对照结果
    说明:“【】”前为《蓝天列表》数据;“【】”中为《Unicode CJK 拼音表》数据。

ba 抜【抜 ba2】
bai 拝【拝 bai4】
bang 幇【幇 bang1】
bian 邉【邉 bian1】
bian 変【変 bian4】
bian 辧【辧 bian4】
bian 辺【辺 bian1】
bing 餠【餠 bing3】
bu 歩【歩 bu4】
ce 厠【厠 ce4】
ceng 曽【曽 ceng1】
cha 挿【挿 cha1】
chai 犲【犲 cai2】
chan 懴【懴 chan4】
chang 甞【甞 chang2】
chao 巣【巣 chao2】
chen 鎭【鎭 zhen4】
cheng 乗【乗 cheng2】
chi 鵄【鵄 zhi1】
chi 遅【遅 chi2】
chi 歯【歯 chi3】
chuan 伝【伝 chuan2】
cong 聡【聡 cong1】
cong 従【従 cong2】
cu 卆【卆 zu2】
cuan 攅【攅 zan3】
cuan 簒【簒 cuan4】
cui 忰【忰 cui4】
cui 翆【翆 cui4】
cui 粋【粋 cui4】
cuo 嵳【嵳 cuo2】
da 逹【逹 da2】
dai 帯【帯 dai4】
dan 単【単 dan1】
dan 弾【弾 dan4】
dao 嶋【嶋 dao3】
dao 稲【稲 dao4】
de 悳【悳 duo2】
de 徳【徳 de2】
di 逓【逓 di4】
dian 巓【巓 dian1】
die 畳【畳 die2】
die 疂【疂 die5】
die 疉【疉 die2】
dong 鶫【鶫 dong5】
dou 闘【闘 dou4】
dou 鬪【鬪 dou4】
dou 読【読 du2】
du 涜【涜 du2】
dui 対【対 dui4】
duo 駄【駄 tuo2】
e 悪【悪 e4】
e 蕚【蕚 e4】
er 児【児 er2】
er 尓【尓 er3】
er 弐【弐 er4】
er 貮【貮 er4】
fa 発【発 fa1】
fa 髪【髪 fa4】
fan 飜【飜 fan1】
fei 廃【廃 fei4】
fo 仏【仏 fo2】
fu 釡【釡 fu3】
fu 冨【冨 fu4】
gai 葢【葢 gai4】
gai 漑【漑 gai4】
gao 皐【皐 gao1】
geng 羮【羮 geng1】
geng 頚【頚 jing3】
guai 枴【枴 guai3】
guan 観【観 guan1】
guan 潅【潅 guan4】
guang 広【広 guang3】
gui 帰【帰 gui1】
gui 亀【亀 gui1】
han 凾【凾 han2】
hu 壷【壷 hu2】
huai 懐【懐 huai2】
huai 壊【壊 huai4】
huan 歓【歓 huan1】
huan 渙【渙 huan4】
hui 恵【恵 hui4】
hui 絵【絵 hui4】
ji 喞【喞 ji1】
ji 撃【撃 ji2】
ji 韲【韲 ji1】
ji 鶏【鶏 ji1】
ji 羇【羇 ji1】
ji 剤【剤 ji4】
ji 済【済 ji4】
ji 継【継 ji4】
ji 曁【曁 ji4】
ji 斉【斉 qi2】
jia 仮【仮 jia3】
jia 頬【頬 jia2】
jian 殱【殱 jian5】
jian 倹【倹 jian3】
jian 検【検 jian3】
jian 鹸【鹸 jian3】
jian 剣【剣 jian4】
jian 剱【剱 jian4】
jian 賎【賎 jian4】
jian 劒【劒 jian4】
jiang 醤【醤 jiang4】
jiao 撹【撹 jiao3】
jiao 覚【覚 jue2】
jie 掲【掲 jie1】
jie 畍【畍 jie4】
jin 菫【菫 jin3】
jin 侭【侭 jin3】
jing 亰【亰 jing1】
jing 経【経 jing1】
jing 浄【浄 jing4】
jiong 烱【烱 jiong3】
ju 倶【倶 ju4】
ju 挙【挙 ju3】
ju 欅【欅 ju3】
ju 拠【拠 ju4】
juan 圏【圏 quan1】
juan 巻【巻 juan4】
jue 絶【絶 jue2】
jun 皹【皹 jun1】
kuang 昿【昿 kuang4】
kuang 砿【砿 kuang5】
kuang 鉱【鉱 kuang4】
kuo 拡【拡 kuo4】
la 蝋【蝋 la4】
lai 頼【頼 lai4】
lai 瀬【瀬 lai4】
lan 覧【覧 lan3】
lao 労【労 lao2】
le 楽【楽 le4】
lei 塁【塁 lei5】
lei 涙【涙 lei4】
li 茘【茘 li4】
li 暦【暦 li4】
li 歴【歴 li4】
li 檪【檪 li5】
lian 聨【聨 lian5】
lian 錬【錬 lian4】
liang 両【両 liang3】
liang 輌【輌 liang4】
lie 猟【猟 lie5】
ling 霊【霊 ling2】
ling 齢【齢 ling2】
liu 畄【畄 liu2】
liu 璢【璢 liu2】
liu 澑【澑 liu4】
long 篭【篭 long2】
long 滝【滝 long2】
mai 売【売 mai4】
man 満【満 man3】
mao 貎【貎 ni2】
me 麼【麼 me5】
meng 萠【萠 meng2】
mian 麺【麺 mian4】
mo 黙【黙 mo4】
mu 嘸【嘸 fu3】
mu 畆【畆 mu3】
nang 嚢【嚢 nang2】
nao 悩【悩 nao3】
nao 脳【脳 nao5】
nao 閙【閙 nao4】
niang 嬢【嬢 niang2】
niang 醸【醸 niang4】
nie 噛【噛 nie4】
ning 侫【侫 ning4】
ou 鴎【鴎 ou1】
po 醗【醗 po4】
po 溌【溌 po1】
pu 舗【舗 pu4】
qi 気【気 qi4】
qian 銭【銭 qian2】
qian 濳【濳 qian2】
qian 籖【籖 qian5】
qiu 逎【逎 qiu2】
qu 駆【駆 qu1】
qu 駈【駈 qu1】
quan 権【権 quan2】
quan 勧【勧 quan4】
rang 穣【穣 rang2】
rang 壌【壌 rang3】
rang 譲【譲 rang4】
ren 仭【仭 ren4】
rong 栄【栄 rong2】
run 閠【閠 run4】
sao 掻【掻 sao1】
sao 騒【騒 sao1】
sao 鯵【鯵 shen1】
se 渋【渋 se5】
shao 焼【焼 shao1】
she 舎【舎 she5】
she 渉【渉 she4】
she 摂【摂 she4】
shen 愼【愼 shen4】
sheng 縄【縄 ying5】
sheng 剰【剰 sheng4】
shi 実【実 shi2】
shi 丗【丗 shi4】
shi 亊【亊 shi4】
shi 釈【釈 shi4】
shou 痩【痩 shou4】
shou 獣【獣 shou5】
sou 捜【捜 sou1】
su 粛【粛 su4】
sui 髄【髄 sui3】
sui 砕【砕 sui4】
sui 穂【穂 sui4】
suo 簔【簔 suo1】
teng 籘【籘 teng2】
tie 鐡【鐡 tie3】
ting 聴【聴 ting1】
ting 廰【廰 ting1】
tou 偸【偸 tou1】
tu 図【図 tu2】
tuan 団【団 tuan4】
tun 呑【呑 tun5】
tuo 楕【楕 tuo3】
wa 膃【膃 wa4】
wan 晩【晩 wan3】
wang 徃【徃 wang3】
wen 穏【穏 wen3】
wu 呉【呉 wu2】
xi 渓【渓 xi5】
xi 煕【煕 xi1】
xi 犠【犠 xi5】
xian 繊【繊 xian5】
xian 纎【纎 xian1】
xian 険【険 xian3】
xian 顕【顕 xian3】
xian 県【県 xian4】
xian 陥【陥 xian4】
xiang 郷【郷 xiang1】
xiao 暁【暁 xiao3】
xiu 繍【繍 xiu4】
xu 続【続 xu5】
xu 聟【聟 xu4】
xun 勲【勲 xun1】
xun 薫【薫 xun1】
ya 圧【圧 ya1】
ya 唖【唖 ya3】
ya 亜【亜 ya4】
yan 塩【塩 yan2】
yan 厳【厳 yan2】
yan 巌【巌 yan2】
yan 焔【焔 yan4】
yan 鳫【鳫 yan4】
yan 験【験 yan3】
yan 艶【艶 yan4】
yang 様【様 yang4】
yao 尭【尭 yao2】
yao 揺【揺 yao2】
yao 薬【薬 yao4】
ye 曵【曵 ye4】
yi 壱【壱 yi1】
yi 訳【訳 yi4】
yi 駅【駅 yi4】
yin 隠【隠 yin3】
yin 飮【飮 yin3】
ying 応【応 ying1】
ying 桜【桜 ying1】
ying 鴬【鴬 ying1】
ying 蛍【蛍 ying2】
ying 営【営 ying2】
ying 蝿【蝿 ying2】
yu 娯【娯 yu2】
yu 楡【楡 yu2】
yu 喩【喩 yu4】
yuan 渕【渕 yuan1】
yuan 縁【縁 yuan2】
za 雑【雑 za2】
zan 讃【讃 zan4】
zang 賍【賍 zang1】
zang 弉【弉 zang4】
zang 臓【臓 zang4】
zao 竃【竃 zao4】
ze 択【択 ze2】
ze 沢【沢 ze2】
zen 譛【譛 zen4】
zeng 増【増 zeng1】
zhai 斎【斎 zhai1】
zhan 桟【桟 zhan4】
zhan 戦【戦 zhan4】
zheng 徴【徴 zheng1】
zhi 値【値 zhi2】
zhu 鋳【鋳 zhu4】
zhuan 専【専 zhuan1】
zhuan 転【転 zhuan3】
zhuang 荘【荘 zhuang1】
zhun 凖【凖 zhun5】
zi 姉【姉 zi3】
zong 惣【惣 zong3】
zong 縦【縦 zong4】
zou 赱【赱 zou3】
zu 爼【爼 zu3】
zuan 鑚【鑚 zuan4】
zuan 纉【纉 zuan3】
zui 酔【酔 zui4】


作者: 紫光蓝天    时间: 2014-2-26 20:06
老王,看了你的这份对比资料
声母和韵母是正确的
但是有很多声调5
这是错误的
作者: wangyanhan    时间: 2014-2-26 20:34
本帖最后由 wangyanhan 于 2014-2-26 20:44 编辑
紫光蓝天 发表于 2014-2-26 20:06
老王,看了你的这份对比资料
声母和韵母是正确的
但是有很多声调5
蓝天版主是这样的——

在 “Unihan Database Lookup” 数据库语音信息中,用的是数字声调。对 “阴、阳、上、去” 是用“1、2、3、4” 标注的,对轻声则不标注。俺把轻声则标注成了 “5”(有很多资料上也把轻声标注为 “0” ) 。看来有些不是轻声,可能是“Unihan Database Lookup” 数据库漏掉标注了。

上次俺也发现,乄 原为 “wu5” (可能也是漏掉标注了),但依《汉语大字典》应改为 “wu3” 。这样吧,以后搞个变通,把 “5” 干脆去掉,不标注,以后再慢慢纠正。不过难以全部纠正,这个过程太浩大了呵呵!不标注的变通办法却很现实的呵呵!

作者: 紫光蓝天    时间: 2014-2-26 23:01
声调5以外的也有个别差错
比如

【曽 ceng1】应为【曽 ceng2】和【曽 zeng1】
【犲 cai2】应为【犲 chai2】
【験 yan3】应为【験 yan4】

还有,多音字欠缺读音
【悳 duo2】不应缺少【悳 de2】
【澑 liu4】不应缺少【澑 liu1】
……
作者: wangyanhan    时间: 2014-2-26 23:40
紫光蓝天 发表于 2014-2-26 23:01
声调5以外的也有个别差错
比如

    记得《Unicode CJK 拼音表-含41138个汉字的拼音》在加加论坛初发帖时,网友cyf0717就回帖提过“似乎不准确”的话。
    俺回帖说:“其实俺只做了一个收集整理工作,估计还有大量的校改工作有待日后去做。能有广大网友参与,靠群策群力来进行校改工作那是最好不过了呵呵!”
    cyf0717说:“校改也很困难,有本权威字典的“长”只有“长c”没有“长z”……

    俺想也是这样的,“Unihan Database Lookup”数据库——当然是顶级学术机构和众多学者门熔炼出的产品,都似乎多有憾缺,何况俺们呢?    其实俺早就抱着这个宗旨在办事——学《康熙字典》,述而不作……。当然,明显的错误也是要修改的,明显的欠缺也是要补足的,但数量有限呵呵!

作者: 紫光蓝天    时间: 2014-2-27 10:18
老王,你加注音后,这个码表出现了错误
请看
不 ❶4E0D ❷B2BBù/bú
丙 ❶4E19 ❷B1FBǐng
並 ❶4E26 ❷814Bìng
……
作者: wangyanhan    时间: 2014-2-27 20:25
紫光蓝天 发表于 2014-2-27 10:18
老王,你加注音后,这个码表出现了错误
请看
不 ❶4E0D ❷B2BBù/bú

万分高兴蓝天版主!及时指出了《Unicode_GB18030编码对应表》(更新3)的加注拼音错误。

今天,俺接着放出了《Unicode_GB18030编码对应表》(更新3修改)稿,删除了第 “ ❸ ” 项新增的汉语拼音。


《Unicode_GB18030编码对应表》(更新3修改)

━━━━
更新列表
━━━━

1、2014.2.6    完成第一稿,合计76131字。
2、2014.2.21   增“12、增补私用A区(73字)”,合计76204字。
3、2014.2.22   增Unicode编码区块英文名。
4、2014.2.26   增“7、Unicode私用区部件及汉字”80字,合计76284字。

说明:
昨天放出的 “(更新3)” 稿,在GB18030编码后,还新增了第 “ ❸ ” 项,对37996个汉字加注了汉语拼音。因制作匆忙,错误不少,故今天又放出了 “(更新3修改)” 稿,删除了第 “ ❸ ” 项新增的汉语拼音。特此说明。

附件下载:仍然在一楼原下载链接。↑↑↑↑↑

作者: 紫光蓝天    时间: 2014-2-28 00:43
老王
你的成果取消了
稍微有一些遗憾
俺的成果却保留了
我挑出的298个日本汉字
将留在这个帖子里了
这对于我们对比中日汉字
也是很有意义的
作者: wangyanhan    时间: 2014-2-28 12:24
本帖最后由 wangyanhan 于 2014-2-28 12:32 编辑
紫光蓝天 发表于 2014-2-28 00:43
老王
你的成果取消了
稍微有一些遗憾


有错就改呵呵!

不是取消,是暂时收回,等弄好了再放出呵呵!因为在私用区又新发现了99个汉字部件。

至于“Unicode 6.3.0”数据库语音信息,打算只搜集整理,不搞再创作,这样会引出很多负面效应的,到时会感到力不从心……
再说,资料是开源的,又是最普通的txt文本格式,用户根据各人的需要,想怎么改都可以呵呵!



作者: 紫光蓝天    时间: 2014-2-28 14:22
老王,其实我的原意是这样的:
就用你原来弄的三万多注音的版本
然后把我列出的298个字加上注音
再把码表的格式错误修改一下
就是很完美的了

作者: wangyanhan    时间: 2014-3-16 19:18

Unicode_GB18030编码对应表(更新5)已发布

详情介绍和附件下载均一楼





欢迎光临 华宇拼音输入法论坛 (http://bbs.pinyin.thunisoft.com/) Powered by Discuz! X3.2