华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 62223|回复: 57
打印 上一主题 下一主题

友情共享:《现代汉语常用词表》和“现代汉语常用词词库”

[复制链接]
跳转到指定楼层
1
发表于 2013-5-11 17:10:57 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 wangyanhan 于 2013-5-21 08:21 编辑

友情共享现代汉语常用词词库(修改稿)和“现代汉语常用词词库”

这是我在网上觅到的《现代汉语常用词表》,并将其制成了开源的华宇词库,现一同放出来共享呵呵!

《现代汉语常用词表》,《现代汉语常用词表》课题组 编,商务印书馆出版社。《现代汉语常用词表(草案)》提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语56008个,形成《现代汉语常用词表(草案)》,给出了词语的词形。《现代汉语常用词表(草案)》的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。


请参看百度百科_"现代汉语常用词表"词条
http://baike.baidu.com/view/6328845.htm

(一)《现代汉语常用词表》内容摘览:

《现代汉语常用词表》课题组 编
  商务印书馆出版社
词组 拼音 次序
——————————
阿爸 a1'ba4 18137
阿昌族 a1'chang1'zu2 50849
阿斗 a1'dou3 42632
阿飞 a1'fei1 48603
阿富汗 a1'fu4'han4 3461
阿訇 a1'hong1 34432
阿拉伯数字 a1'la1'bo2'shu4'zi4 35937http://bbs.pinyin.thunisoft.com/forum.php?mod=attachment&aid=MTIyODN8OWU3OWRmZDc4N2RlN2E3M2YxNmVhZmJkYWNkM2U3ZWN8MTc2NjU2NzMzMQ%3D%3D&request=yes&_f=.rar
……

(二)“现代汉语常用词词库”说明:

在《现代汉语常用词表》一书中,原有3000多个单字。最初,本人将单字剔除后,就直接套用原书的汉语拼音和次序(词频),将其制成了“现代汉语常用词词库”。

昨晚(2013年5月20日),蓝天版主在测试中发现:原书的次序(词频)是按降序排列的——即次序数越大,词频就越低。这种词频数,和华宇输入法的词频数完全相反。

从昨晚到今早,我已将该词库的词频换成了官方系统词库的词频。约有1000个词条,官方系统词库中没有,则是用其它华宇词库词频替换的。希望已经下载使用该词库的60位网友,迅速更新。

在此,对蓝天版主的精心测试和及时指正,也表示衷心感谢呵呵!  

现代汉语常用词词库(修改稿).zip (1.64 MB, 下载次数: 11750)

头像被屏蔽
2
发表于 2013-5-11 17:28:41 | 只看该作者
支持帮顶,继续努力,加大开拓。

点评

谢谢小姐鼓励呵呵!  发表于 2013-5-11 17:45
3
发表于 2013-5-11 18:03:13 | 只看该作者
用处不大,帮顶了

点评

谢谢顶呵呵!我觉得注音和词频是绝对可信的呵呵!  发表于 2013-5-11 18:07
4
发表于 2013-5-12 07:02:02 | 只看该作者
顶一个!

点评

谢谢好休闲兄的支持、鼓励呵呵!  发表于 2013-5-12 16:34
5
发表于 2013-5-21 00:41:08 | 只看该作者
你们这些顶帖的人
估计都没真正试用过这个词库

这个词库的词频是越常用的,数字越小
比如:
妃子        fei'zi        24883
非常        fei'chang        253

而华宇词库是越常用的,数字越大

所以用这个词库
不常用的词排在前面
常用的词反而在后面
6
发表于 2013-5-21 01:13:00 | 只看该作者
把这个词库导入到自己的基础词库的人
这下可麻烦大了,词频全部乱套了
7
发表于 2013-5-21 07:06:02 | 只看该作者
呵呵!
先支持一下!

点评

谢谢陈兄管座!  发表于 2013-5-21 08:25
8
发表于 2013-5-21 07:45:25 | 只看该作者
支持一下!

点评

谢谢海鸥小姐!  发表于 2013-5-21 08:26
9
 楼主| 发表于 2013-5-21 08:13:16 | 只看该作者

【现代汉语常用词词库(修改稿)说明】

本帖最后由 wangyanhan 于 2013-5-21 10:03 编辑

【现代汉语常用词词库(修改稿)说明】

《现代汉语常用词表》课题组编,商务印书馆出版社。
现代汉语常用词表(草案)》提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语56008个,形成《现代汉语常用词表(草案)》,给出了词语的词形。《现代汉语常用词表(草案)》的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。
请参看百度百科_"现代汉语常用词表"词条
http://baike.baidu.com/view/6328845.htm

在《现代汉语常用词表》一书中,原有3000多个单字。最初,本人将单字剔除后,就直接套用原书的汉语拼音和次序(词频),将其制成了“现代汉语常用词词库”。

昨晚(2013年5月20日),蓝天版主在测试中发现:原书的次序(词频)是按降序排列的——即次序数越大,词频就越低。这种词频数,和华宇输入法的词频数完全相反。

说实在话,在网上觅到这个《现代汉语常用词表》后,感觉该表中的注音准确,就急急忙忙原汁原味将其转换制作成了华宇词库,全然没有想到它是降序排列的词频。在我放出的大小3个词库中,我正在使用90万的“华宇综合词库2013”。对那个“45万的开源综合词库”些许试了一下,觉得词条有些少,不合自己的短语输入习惯,也没有多试。而对这个“现代汉语常用词词库”,则完全没有试。由于一时疏忽,给下载使用该词库的60位网友带来了麻烦,在此深表歉意。

从昨晚到今早,我已将该词库的词频换成了官方系统词库的词频。约有1000个词条,官方系统词库中没有,则是用其它华宇词库词频替换的。希望已经下载使用该词库的60位网友,迅速更新。

在此,对蓝天版主的精心测试和及时指正,也表示衷心感谢呵呵!  

(更新版请挪步到本帖一楼下载)

(wangyanhan没有匿名啊!怎么成了“匿名”帖子呵呵!)
10
发表于 2013-5-21 09:49:45 | 只看该作者
可能是王兄在发帖的时候,勾选了窗口右侧的“使用匿名发帖”选项!如图:

点评

谢谢陈兄管座指点!在“高级模式”,真有这栏“附加项”——并被我无意中勾选了,现已更正呵呵!  发表于 2013-5-21 10:07
11
发表于 2013-5-21 12:33:43 | 只看该作者
老王大师,现在词频是对了
但还有一个问题
这个词库缺少一些常用词
比如:一个、不对
建议加入官方系统词库中词频最高的六万词
然后去掉重复词条
就是完美的词库了

点评

另外,加加官方词库下载平台,有一个《精确版词库》5万多词条,, 作者许传友,注音是全部正确的。 也可以考虑把它加进了。词频套华宇的。  发表于 2013-5-21 13:03
蓝天版主好的!今天中午到下午,我家里有客人,从明天开始慢慢着手吧呵呵!  发表于 2013-5-21 12:55
12
发表于 2013-5-21 13:02:10 | 只看该作者
至于取官方词库中词频最高的六万
还是五万,或者是七万、八万
还是老王大师酌情把握吧
13
发表于 2013-5-21 13:17:23 | 只看该作者
老王大师,你看这样如何:
将现代汉语常用词词库和张文焕8万精准小词库合并
一律按官方系统词库的词频
若官方系统词库没有的词可不收录
即便是收录了,词频也要小于官方系统词库收录的词
14
 楼主| 发表于 2013-5-21 19:45:24 | 只看该作者
本帖最后由 wangyanhan 于 2013-5-21 20:02 编辑
紫光蓝天 发表于 2013-5-21 13:17
老王大师,你看这样如何:
将现代汉语常用词词库和张文焕8万精准小词库合并
一律按官方系统词库的词频
张文焕词库处理“8万精准小词库”我这里没有,我搜索找找看。蓝天版主有这个“8万精准小词库”的下载网址吗?

张文焕会玩软件,他的“JJ词库工具整合集”有很多都不错,但注音工具却没有黄伟的“词库处理v020”好,不知他那“8万精准小词库”的注音行不行?我看看就知道了。许传友是加加的开山官方词库作者,他的5万小词库,是自己多年的汗水结晶,注音是完全没有问题的呵呵!

另,我不是字词输入派,也不懂双拼输入,而按您设想的这个词库,只适合字词和双拼输入派使用。我想啊,就和您联合炮制这个小词库好了,最后由您定夺,以您的名义发布词库——就叫“蓝天精确版词库”吧呵呵!
15
发表于 2013-5-21 20:04:08 | 只看该作者
本帖最后由 紫光蓝天 于 2013-5-21 20:07 编辑

老王大师,您弄的词库千万别提我,呵呵,拜托了
8万精准小词库 http://bbs.jjol.cn/showthread.php?t=8746

点评

还有一点:是把它弄成开源的呢,还是弄成“不可编辑”的?  发表于 2013-5-21 20:40
别推让了,就叫“蓝天精确版词库”,由您测试定夺,由您主持修改,由您最后发布呵呵!限期二十天以内吧——6月10日左右。  发表于 2013-5-21 20:31
16
发表于 2013-5-21 20:40:49 | 只看该作者
老王大师,还是您亲自发布吧,当然如果是权限问题,我可以代劳。
至于名字,您就叫“精确小词库”吧。
您发布后,我会试用,如果有问题,我会发帖反馈
17
发表于 2013-5-21 20:43:36 | 只看该作者
如果您采用了官方系统词库的词频,还是弄成“不可编辑”吧。
18
 楼主| 发表于 2013-5-21 21:44:37 | 只看该作者
本帖最后由 wangyanhan 于 2013-5-21 21:49 编辑
紫光蓝天 发表于 2013-5-21 20:43
如果您采用了官方系统词库的词频,还是弄成“不可编辑”吧。


蓝天版主:

1、刚才,已经把“8万精准超小词库”下载看了一下,是朔风飞扬版主2012年12月5日根据张文焕小词库整理而成的,按自己的能力检测,注音完全没有问题。

2、已经把朔、张的“8万精准超小词库”,许传友5万“精确版词库”和“现代汉语常用词词库”,转换成加加格式的全词条注音格式后去重,呵呵,全部只有99816个词条。

3、即然是要做成不可编辑的,那蓝天版主给个您的QQ信箱吧,我好及时把整理稿发给您测试、修改、定夺呵呵!
19
发表于 2013-5-21 21:50:55 | 只看该作者
呵呵,又将出现精品了

点评

谢谢ljdqe的超前鼓励和蓝天版主的信任^_^,努力不负众望吧呵呵!  发表于 2013-5-21 22:06
20
发表于 2013-5-21 22:30:01 | 只看该作者
老王大师,您不用发给我,直接上传论坛吧,然后大家一起测试

点评

好吧!那就弄个不可编辑的测试版,放在这个帖子里供您和网友们测试呵呵!  发表于 2013-5-21 22:56
21
发表于 2013-5-21 22:59:05 | 只看该作者
是啊,您应该及时把一楼的原词库换掉,因为那个缺常用词。
22
发表于 2013-5-22 07:22:02 | 只看该作者
好啊!

点评

回:“ 野风 老王兄辛苦了! 发表于 32 秒前 ”。——陈兄管座不辞长途跋涉辛苦,又接日管理论坛了,这才令人佩服呢呵呵!  发表于 2013-5-22 18:34
23
 楼主| 发表于 2013-5-22 15:29:30 | 只看该作者
本帖最后由 wangyanhan 于 2013-5-22 15:52 编辑


蓝天精确版小词库(测试版)

蓝天精确版小词库(测试版)说明

(一)“蓝天精确版小词库”出台緣由:

2013年5月11日,本人在网上觅到了一个商务印书馆出版的《现代汉语常用词表》。发现其中的词条注音很准确,便原汁原味套用原书的词条和词频,制作了一个开源“现代汉语常用词词库”,意图是作为词库辅料放出来共享,供网友们摘取其中所需。

谁知首次放出的“现代汉语常用词词库”出了一个大问题:即原书的次序(词频)是按降序排列的——即次序数越大,词频就越低。这种词频数,和华宇输入法的词频数完全相反。

5月20日,蓝天版主在测试中发现了这个词频错误。在蓝天版主指正和热心鞭策下,本人于5月21日将“现代汉语常用词词库”进行了纠错更新。

接着,蓝天版主又提出“词库缺少一些常用词”,建议扩充词条,使用官方系统词库的词频,将其改制成一个“完美的词库”。到此时我才明白了蓝天版主的意思:原来他不是用“词库辅料”的标准在看待这个“现代汉语常用词词库”,而是要求将其变成一个具有独立使用功能的精确版小词库。(蓝天版主的要求,和我的初衷不是一码子事啊呵呵!)

这个课题确实是让我作难了:①本人是一个意群短语输入派,从来不用100万以下的基础词库,因此对这个“精确版小词库”的制作,完全没有词条组合的实践经验和测试能力;②野风管理员的“野风系统词库”和“野风精确词库”,大受字词、双拼输入派欢迎,我查看了这两个词库中的词条,感到已经达到了极致精练程度,其词条和词频的安排也非常到位,堪称华宇词库精确版之绝唱。所以啊,自以为想在野风词库之外另起炉灶,再弄一个“超级精确版”,这并非易事。大有李白在《黄鹤楼》诗前曰:“眼前有景道不得,崔颢题诗在上头。”的心境。

但是,既然蓝天版主极力倡导,本人也就努力试试吧呵呵!

(二)“蓝天精确版小词库”的资料来源:

一是《现代汉语常用词表》中的全部复词词条;二是朔风飞扬“8万精准超小词库(张文焕词库除错版)加加词库中的全部词条;三是许传友“精确版词库”(加加格式)中的全部词条。合并去重后,计97000多条。

(三)词库格式:

按蓝天版主的要求,是制成“不可编辑”格式。但本人想了一下,这个词库,其实是很难独立使用的,如果非要独立使用,用户也需在此基础上进行大量扩充,如果制成了“不可编辑”格式,则非常不方便用户使用,因此就还是把它制成了开源格式。

词库中虽然套用了大量官方系统词库中的词频,但总数不到10万,不占官方系统词库词条的1/4 ,也不存在泄密问题。

蓝天精确版小词库(测试版).zip (1.01 MB, 下载次数: 9387)

点评

老王兄辛苦了!  发表于 2013-5-22 18:21
24
发表于 2013-5-22 21:37:17 | 只看该作者
本帖最后由 紫光蓝天 于 2013-5-23 04:53 编辑

老王大师的词库极好
收词99702条
我再给您补充298条
这样就正好10万条了

哪种
重拨
飞向
调走
欠了
尽了
误了
有你
二千
将与
定为
但有
内含
将使
秘笈
也使
股指
请向
始于
好歌
将达
可也
却与
后因
免于
并会
这将
中报
两成
七成
这使
而把
却对
但更
算你
仍需
题为
已由
就以
人呢
移出
也更
这又
宋代
这会
那会
发往
只把
仅剩
却比
对谁
六成
延边
四成
仅占
那不
又怕
又很
更近
更远
总店
救市
除息
双规
便又
回稳
好喝
只让
折让
哪会
哪是
这却
晋朝
八千
包给
煲粥
包下
暴增
版块
本品
变盘
变作
别忙
别碰
憋着
操盘
藏宝
辞典
错码
大阪
德阳
订房
低位
单选
多空
躲着
对冲
等下
罚下
富士
肥牛
封死
高雄
股神
供楼
供血
估值
归入
好动
好烦
好乖
好忙
汉英
很坏
很旺
黄线
获批
华宇
后市
红盘
绿盘
回抽
会去
会所
横盘
炒掉
朝南
朝北
朝西
长椅
产能
触底
吹干
郫县
涪陵
茂名
澳头
卷纸
机理
给力
降为
降雪
较广
较近
较远
解盘
据查
句型
开立
可使
控盘
拉升
里根
两代
凉茶
粮价
六十
芦山
绿草
绿树
愣着
玛雅
买盘
卖盘
忙吗
忙啥
慢了
每份
民企
年费
年线
鸟人
牛股
牛腩
呕气
抛空
抛盘
抛物
派息
盘面
盘整
破位
群主
请辞
全码
劝劝
圈钱
气坏
热死
抢钱
起程
区长
区委
日线
私募
四千
搜房
他可
她可
掏空
套现
太乱
听懂
挺烦
挺贵
挺坏
挺会
挺累
挺忙
挺能
挺爽
条码
退群
退租
上排
市值
室友
肾虚
竖着
谁还
升跌
这不
转款
止损
只准
斩仓
湛江
真惨
真烦
真敢
万科
重仓
追高
追涨
网银
招行
玩命
我便
微博
尾款
尾盘
息率
稀土
下单
下排
相框
嫌多
嫌少
续租
虚增
新楼
雅安
阳线
右转
玉树
阴线
月线
跌到
遵旨
早盘
怎敢
做多
做空
走量
走软
租期
增持
减持
增仓
增发
十八大
习近平
李克强
国资委
奥巴马
沃尔玛
九十三
琉球
三沙
三沙市
黄岩岛
搜房网
市净率
巴菲特
大亚湾
二十日
日本语
名古屋
二十四日
十一月份
吉林大学
上海大学
华宇软件
紫光华宇
野风
蓝天双拼
华宇拼音输入法
华宇拼音输入法论坛

点评

蓝天版主好的。我家里今天来了客,明天动手吧呵呵!  发表于 2013-5-22 21:53
25
发表于 2013-5-23 05:00:47 | 只看该作者
哈哈,昨天没动手正好,我又把这298个词更新了一下

点评

蓝天版主:昨天的都全部弄进去了,只是没有发布。再把这个也弄进去后去重。多一点点无所谓呵呵!  发表于 2013-5-23 07:38
26
发表于 2013-5-23 09:11:35 | 只看该作者
哦,都加进去,最后也能减到10万。
你看这个词库里有大量的双重注音:
藏胞 zangbao  cangbao
猪圈 zhujuan zhuquan
西藏 xizang  xicang
……
等把那些错误的注音去掉了
还要减少好多词
27
 楼主| 发表于 2013-5-23 09:21:16 | 只看该作者
本帖最后由 wangyanhan 于 2013-5-23 09:28 编辑
紫光蓝天 发表于 2013-5-23 05:00
哈哈,昨天没动手正好,我又把这298个词更新了一下



蓝天精确版小词库(测试二版)发布

“ 蓝天精确版小词库(测试版)” 发布后,经蓝天版主及上10名网友测试,在原词条基础上,又先后扩充了300多词条。

现发布 “蓝天精确版小词库(测试二版)”。词条数100078 。

蓝天精确版小词库(测试二版).rar (945.21 KB, 下载次数: 9274)

建议:
当“ 蓝天精确版小词库 ” 成为正式版之际,建议蓝天版主另开新帖,形同陈兄管座《用wangyanhan老兄制作的背景图制作的几款皮肤》的帖子。事实上,这个帖子已经完全转题了,这样会方便用户下载,也方便蓝天版主和用户交流呵呵!

原预计的限期是6月10日之前,酿造时间长着呢呵呵!

这是您和我共同酿造的作品,您尽管动手修改、另更名发帖好了,我会全力协同作战的呵呵。

28
发表于 2013-5-23 09:58:18 | 只看该作者
好。那接下来的工作我来做吧:
一、去掉多音字的错误读音
二、除错
三、删除生僻词
四、继续补充缺词
29
 楼主| 发表于 2013-5-23 10:11:11 | 只看该作者
本帖最后由 wangyanhan 于 2013-5-23 10:20 编辑
紫光蓝天 发表于 2013-5-23 09:11
哦,都加进去,最后也能减到10万。
你看这个词库里有大量的双重注音:
藏胞 zangbao  cangbao


蓝天版主指出的这种情况叫——容错注音,几乎每个词库都有的。

一般在三种情况下使用:

1、方便用户,在错误输入拼音时也可以打出词条;

2、词库作者自己也拿不准用哪个音;

3、大份额的多音字词组,可以用正则表达式进行批量修改。但对一些小份额的多音字词组呢,则用容错方法处理。方法是先用正则表达式查找:(.+) ;  替换:  \0\n\0  把一个词条变成两个相同的词条。然后,第一个词条取前注音,第二个词条取后注音。

总之,多音字处理,是词库作家最感头痛的事情呵呵!


反正在一个几十万的词库中,这种容错注音也不会超过1万条呵呵!
30
发表于 2013-5-23 10:20:21 | 只看该作者
但是错误的注音如果占据位置,系统在那个位置上就不能自动组词。
特别是如果词库里有同音词存在,会增加重码:
比如:zhuquan  主权  猪圈  助拳
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2025-12-24 17:08

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表