华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 32382|回复: 28
打印 上一主题 下一主题

【CJK汉字拼音表_42907字_14.8.10更新】

[复制链接]
跳转到指定楼层
1
发表于 2014-7-18 08:59:15 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 wangyanhan 于 2014-8-10 11:53 编辑

【CJK 汉字拼音表——42907字】

(2014.8.10更新)
wangyanhan(老老朽)整理制作

━━━━
目 录
━━━━
说明
“Unihan Database Lookup 7.0.0”汉字拼音表(41219字)
“Unicode 7.0.0”中仅有的汉字拼音表(499字)
私用区汉字拼音表(254字)
中日韩兼容表意文字区汉字拼音表(450字)
中日韩统一表意文字增补集区汉字拼音表(475字)
其它资料上收集的汉字拼音表(10字)
—————————————————

◆说明:
(一)“Unihan Database Lookup 7.0.0”数据库汉字拼音表:
1、依据“Unihan Database Lookup  7.0.0”数据库中的语音信息制作。
(数据库主页:http://www.unicode.org/charts/unihan.html
2、拼音源于《汉语大字典》和《现代汉语词典》中的汉语拼音。
3、计41219个汉字拼音,范围为“Ext-基本、Ext-A、Ext-B、Ext-C、Ext-D”区的汉字。
(二)“Unicode 7.0.0”中仅有的汉字拼音表:
1、是“Unihan Database Lookup 7.0.0”数据库中没有,而“Unicode 7.0.0”数据库中仅有的汉字拼音。
2、数据从英国语言学家魏安(Andrew West)先生著名的字符软件“BabelMap 7.0.0”中提取。计499字。
(三)私用区汉字拼音表:
1、范围为[E600-E6F7]、[E815-E864]。
2、拼音资料最初源于“字海网、叶典网”(http://yedict.com/)。后又参照《汉语大字典》,用繁体字对类推简化字的拼音进行了校正。计254字。
(四)兼容表意文字区和增补集区中的汉字拼音表:
1、“中日韩兼容表意文字”区和“中日韩统一表意文字增补集”区多为兼容变体汉字,这些汉字的拼音,都是依照本体汉字语音加注的。
2、合计925字。其中兼容表意文字450字;增补集475字。
(五)其它资料上收集的汉字拼音表:
1、是在其它资料上另外收集到的有音汉字。其中“〇”音的资料来源为“《现代汉语词典》(第五版)”,“𠀤”音的资料来源为“《汉语大字典》(第二版)”。计10字。
2、这部分有些汉字的拼音仅供参考。
(六)由规范声调拼音和数字声调拼音两种形式加注。数字声调的优点是便于检索。
(七)用“◆”查找,可在各正文标题之间跳转。
(八)因数据浩瀚,整理中估计错误难免,盼网友们多加指正。

◆更新列表:
——2014.3.12
1、在“Unihan Database Lookup”数据库汉字拼音表中,因多音字优化不彻底,造成有3个重复汉字。现已去重复,将多音合并。
2、经排查,发现“Unicode 6.3.0”数据库中有523字是“Unihan Database Lookup”数据库中没有的,现将其添加进了本表。
3、私用区汉字拼音表原只有178字,后改变BabelMap字符映射表的显示字体,新发现了[E815-E864]码段汉字,增加到236字。
4、新增“中日韩兼容表意文字”区和“中日韩统一表意文字增补集”区兼容变体汉字拼音929字。
5、其它资料上收集的汉字拼音表原为69字,后在私用区和兼容变体汉字中找到了,减至35字。
——2014.7.18
1、新增“諶、谌”字的另一语音“shèn”。
2、新增私用区[E6D0-E6F7]码段18字。
3、将多音字拼音的分隔符改成了“/”(原为半角空格)。
——2014.8.10
1、重新整理了“Unihan Database Lookup 7.0.0”版中的汉字拼音。保留了“諶、谌”字的另一语音“shèn”。
2、重新整理了“Unicode 7.0.0”中仅有的汉字拼音。
3、在“中日韩兼容表意文字”区和其它资料上收集的汉字中,减除了“Unihan Database Lookup 7.0”中新增的汉字。
4、参照“Unicode 7.0.0”中计量单位双音字的拼音格式,对其它资料上收集的“瓧、瓰、瓱、、瓼、甅”字拼音进行了修改。
5、在被检索的汉字头,添加了星号引导符“*”。

◆附件下载:
CJK汉字拼音表_42907字_14.8.10更新.rar (289.92 KB, 下载次数: 2040)

2
发表于 2014-7-18 10:23:02 | 只看该作者
支持一下!
3
 楼主| 发表于 2014-7-18 11:03:52 | 只看该作者
野风 发表于 2014-7-18 10:23
支持一下!

谢谢陈兄管座加精鼓励呵呵!
4
发表于 2014-7-20 17:43:06 | 只看该作者
佩服您这样耐心,细致,整理数据的前辈,学习了!
5
发表于 2014-7-20 17:55:06 | 只看该作者
前辈,有几个字需要请教您下:
兀(不是"凸兀"的"兀",似数学上的"π",3.1415926.....),往上查的是不是应该念"pai4"
嗀,是不是应该还有"gu3"这个音。嗀(1)    gu3  ,  嗀(2)    hu4
暂时只关注的这两个,谢谢啦!
6
 楼主| 发表于 2014-7-20 18:34:44 | 只看该作者
本帖最后由 wangyanhan 于 2014-7-21 10:38 编辑
beifeng600 发表于 2014-7-20 17:55
前辈,有几个字需要请教您下:
兀(不是"凸兀"的"兀",似数学上的"π",3.1415926.....),往上查的是不是应 ...
beifeng600 网友:

谢谢你的参与,谢谢你的反馈!

你说的—— 兀 / pai4 ; 嗀 / gu3 音,希望你出示权威辞书上的出处,无法拷贝的可以贴图。如果出处可靠,俺会收录的。如果仅仅是网上闲聊,不会收录呵呵!

俺们不是文字研究者,不收集有争议的研究成果,而是在整理发布资料,述而不作呵呵!

————————————————————

插一句言:

有个9万多字的台湾拼音,俺都没有融汇到该表中,是另行发布的。因为台湾语音和大陆语音的差异很大,有好多语音在大陆资料上都找不到出处呵呵!

7
发表于 2014-7-21 13:37:11 | 只看该作者
支持一下!

点评

谢谢紫罗兰兄跟帖支持呵呵!  发表于 2014-7-21 17:14
8
发表于 2014-7-22 09:16:38 | 只看该作者
论坛也太冷清了,我支持一个,网盘慢慢看,多谢了!
9
 楼主| 发表于 2014-7-22 10:12:30 | 只看该作者
zqds14 发表于 2014-7-22 09:16
论坛也太冷清了,我支持一个,网盘慢慢看,多谢了!
谢谢支持鼓励呵呵!

俺也明显感觉到,自从紫光发布开源公告后,就像给用户浇了一泼冷水,心凉了,也懒得频繁的进坛子了呵呵!

10
发表于 2014-7-23 09:38:13 | 只看该作者
致敬!

点评

谢谢!谢谢二郎兄支持鼓励呵呵!  发表于 2014-7-23 10:52
11
发表于 2014-7-25 07:41:25 | 只看该作者
支持一下!
12
 楼主| 发表于 2014-8-10 11:57:30 | 只看该作者

【CJK汉字拼音表_42907字_14.8.10更新】发布!

详细介绍和附件下载,请挪步到一楼呵呵!

13
发表于 2014-8-10 13:13:57 | 只看该作者
不知四哥是否还关注输入法并看到老王的这份资料。

希望开发组能夠更新华宇拼音输入法的字库数据。
14
发表于 2014-8-10 17:51:42 | 只看该作者
呵呵 受教育了学习中
15
 楼主| 发表于 2014-8-10 20:24:41 | 只看该作者
sanwsw 发表于 2014-8-10 13:13
不知四哥是否还关注输入法并看到老王的这份资料。

希望开发组能夠更新华宇拼音输入法的字库数据。


谢谢戴老师数次将这个《CJK 汉字拼音表》推荐给紫光拼音输入法开发组呵呵!

实在说,这个《CJK 汉字拼音表》中的语音数据,来源十分可靠。大部分源于“Unihan Database Lookup(统一码汉字数据库)”,小部分源于“Unicode”,这些数据,都是由相关国家和地区提供的,又由世界级大师们整理出来的呵呵!

至于Unicode私用区、兼容表意文字区和表意文字增补集区的类简、变体汉字拼音,也是本人逐个参照本体字加注的。

紫光拼音输入法V6.0之后的版本,由于开发组一批专家的努力,在笔画输入、拆分输入及拼音输入方面,已经在整个拼音输入法领域遥遥领先。如果能在拼音库上,进一步与Unicode数据接轨,那就更上一层楼了呵呵!


16
发表于 2014-8-11 01:09:03 | 只看该作者
,向前辈致敬!
17
发表于 2014-8-11 01:43:02 | 只看该作者
很高兴又看到更新了!另外,7月20日,请教过您两个字,后来我查了下,那两个“兀、嗀”是Big5里面,最后两个字,属于重复编码。它的音也没找到权威出处,但是感觉应该原字保持一致吧“兀、嗀”。
我最近也在看拼音这块,发现还有两个问题需要请教您啊,
1、驯        xun4,不是四声吗?
2、乛        ,这个字应该念什么呢?您这儿标的是ya,而搜狗输入法中是 yi, 百度词典是 yi3, 百度百科 zhe2, CC-CEDICT中是 zhe2,表示很晕啊,请您帮忙给确定下哈。
还有能否留个您的邮箱呢?后续有问题我好给您发邮件,我的是qiwei600@126.com,谢谢!
18
发表于 2014-8-11 10:26:06 | 只看该作者
本帖最后由 sanwsw 于 2014-8-11 10:34 编辑


19
 楼主| 发表于 2014-8-11 10:38:23 | 只看该作者
本帖最后由 wangyanhan 于 2014-8-11 12:11 编辑
beifeng600 发表于 2014-8-11 01:43
很高兴又看到更新了!另外,7月20日,请教过您两个字,后来我查了下,那两个“兀、嗀”是Big5里面,最后两个 ...

(一)关于“训”字的汉语拼音:
1、《现代汉语词典》(第五版)》中,这个字音 “xun4”
2、在《汉语大字典(第二版)》4833页,这个字也音“xun4(旧读xun2)”


(二)关于“乛”字的汉语拼音,俺也迷糊了呵呵!
1、《现代汉语词典》(第五版)、《汉语大字典》和《重編國語辭典修訂本》中,都没有收录这个字。
2、在“BabelMap_7.0”字符映射表(和Unicode数据库是一致的)中查,这个字无拼音。
3、在“Unihan Database Lookup”(统一码汉字数据库)中,这个字音“ya5”
http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=%E4%B9%9B

附:在台湾的另一份资料中,这个字音“ya1、wan1”
4、在“《汉语大词典》光盘版2.0”中,这个字音 “zhe2”

5、下面是几款老牌拼音输入法的注音:
    ①拼音加加:

    ②紫光拼音:

    ③搜狗V3.6拼音:


(三)总之,谢谢 beifeng600 网友积极参与《CJK 汉字拼音表》的考据工作,并及时反馈信息。
1、由此看来,“训”字的“xun4”音是一定要进入的,当然,俺个人的想法,“xun2”也可以保留。
2、“乛”音还有待进一步考据呵呵!
3、俺的QQ号 329766723 ,俺很少QQ聊天,但喜欢经常打开QQ邮箱看看。今后多联系呵呵!
4、附带一句:这次的《CJK汉字拼音表》,“ Unihan Database Lookup ” 和 “ Unicode ” 都是全新整理的, “ 兀、嗀 ” 没有重码呵呵!
20
发表于 2014-8-11 10:42:30 | 只看该作者

21
 楼主| 发表于 2014-8-11 11:35:51 | 只看该作者
本帖最后由 wangyanhan 于 2014-8-11 11:47 编辑
sanwsw 发表于 2014-8-11 10:42
戴老师:

(一)在“Unihan Database Lookup(统一码汉字数据库)”中,“竖心旁+柬”为“竖心旁+東”的兼容变体,所以汉语拼音就成了“dong1”。见下图:
http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=%F0%AF%A2%A4

上述问题是有点含糊,还有待进一步考据呵呵!

(二)“竖心旁+柬”,为《康熙字典》心部的第一字,释文“《集韻》同懶”。出处明确呵呵!

(三)俺把这个字记下了,下一次更新时动作。您的意见,该不该保留 dong1 音呢?
22
发表于 2014-8-11 15:49:50 | 只看该作者


《汉语大字典》:

23
 楼主| 发表于 2014-8-11 17:57:05 | 只看该作者
本帖最后由 wangyanhan 于 2014-8-11 18:14 编辑
sanwsw 发表于 2014-8-11 15:49
《汉语大字典》:

戴老师:

刚才查了一下,这个“身+口”字,在“Unihan”、“BabelMap”和台湾的一个语音资料里都音“din4”(在《重編國語辭典修訂本》网页版中没有这个字)。估计“din4”音来自于台湾资料。

《汉语大字典》(第二版)音“zhen4”,出处明确,下一次更新时更正呵呵!

估计戴老师是在用 EmEditor 查看《CJK汉字拼音表》呵呵!
24
发表于 2014-8-18 21:46:26 | 只看该作者
这是一份很好的开源资料。
感谢老王先生的辛苦劳作。
要是华宇输入法的词库也像这样大方的开源,就好了。

点评

谢谢鼓励呵呵!  发表于 2014-8-18 23:45
25
发表于 2015-4-16 14:51:46 | 只看该作者
ajqk_v 发表于 2015-4-16 12:06
在加个字“𠃡”的注音, wan4, 同万


华宇拼音输入法是能够输出这个字的。华宇拼音输入法支持unicode 字符集,是目前输入法中最大的字符集(字库)了。
1.安装超大字符集字体支持包6.0(本论坛内有)。如果不安装支持字体,则这个字是无法显示的。同样包含这个字的文档,在未安装这个字体支持包的计算机上也是无法显示的;
2.设置输入法:输入法设置里的输出范围选择“国际超大字符集”(因为这个字的编码在超大字符集范围内,GBK字符集范围里没有这个字。);输出集合选择“全集”。
26
 楼主| 发表于 2015-4-16 15:09:14 | 只看该作者
ajqk_v 发表于 2015-4-16 12:06
在加个字“𠃡”的注音, wan4, 同万

28楼野风管理员的回帖为正解。

楼主用紫光拼音输入法内置的 “拆字输入” 工具,在输入栏里依次键入笔画码,就可以弹出这个字了。



您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2025-12-24 12:15

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表