华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 23525|回复: 15
打印 上一主题 下一主题

关于《名言名句诗词歌赋》分类词库的构建(转自原论坛)

[复制链接]
跳转到指定楼层
1
发表于 2007-11-19 13:01:55 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
--ZXD4G


抢答题:灿烂的中华妙文陶醉了多少心扉?

个人的答案是十数亿,有幸成为其中的一员,很想精制一个诗词歌赋类的特色词库。

查看过风版和老戴合作的两万多条,感觉落后于V6的支持能力,后观老戴的666精校,又觉内容偏少,于是又搜集材料,制作了准备提供“单独下载”的这么一个库,收录1100多条,还是少,另一批活儿尚未赶制出来,约3000条,在此,诚征两位以及众多妙笔之意,拟合作此库。

即将提供下载的,尚未擅自提取风戴成果,它是允许导出的,期望集众人之力求大成。
这里谈谈个人的制作思路,如有异议,也在此探讨。
1.V6的词条可由32个汉字或者全角符号组成,也就是说,一首七绝或五绝,只要一个词条即可收录;
2.充分利用这个能力,则很多诗随时可以全豹出场;
3.诗中特别脍炙人口的两句或者一句,仍要单独列为词条,如“白日依山尽,黄河入海流。欲穷千里目,更上一层楼。”存在的同时,“更上一层楼”单句也予以收录;
4.某些词牌总长超过32字的,可以一阙一个词条,若一阙仍超长,则大致可按照句号来分隔词条;词中特著名的,同样予以单列,如“当时明月在,曾照彩云归。“、“故国神游”等。
5.注音长度:首句为七个字的,最好给七个音节的拼音,五、六个字的,同理处置。
6.关于“作者”,倾向于“多ID连写”,如人数多,则“紫光华宇拼音爱好者”这个集体名儿吧。

更多的味道,难以尽述,有志之士可以下载后导出查看,再共同协商如何做好它。

暂举几个例子:
登幽州台歌 deng'you'zhou'tai'ge 0
前不见古人,后不见来者。念天地之悠悠,独怆然而涕下! qian'bu'jian'gu'ren 0
前不见古人,后不见来者。 qian'bu'jian'gu'ren 0
念天地之悠悠,独怆然而涕下! nian'tian'di'zhi'you'you 0
前不见古人 qian'bu'jian'gu'ren 0
后不见来者 hou'bu'jian'lai'zhe 0
念天地之悠悠 nian'tian'di'zhi'you'you 0

虞美人
《虞美人》
春花秋月何时了,往事知多少。小楼昨夜又东风,故国不堪回首月明中。
雕阑玉砌应犹在,只是朱颜改。问君能有几多愁,恰似一江春水向东流。
问君能有几多愁
一江春水向东流
_________________
为了中华文化的繁荣......
2
发表于 2007-11-19 13:12:46 | 只看该作者
希望有意者跟帖,老戴本人就免了,已被强行征用。
3
发表于 2007-11-19 13:27:05 | 只看该作者
我先说一下意见.首先要确定一下该诗词库内收录的绝对诗词有多少句?因为涉及到整首的加入,以及单句的加入,甚至于两句的再次加入,会使同一首诗词比如四句诗演化成7-8个条目之多.是否每一首诗词都要这么加入到词库中?先整首,再单句.再两句?有个预感,也许收录的诗词很少,而体积却变得很庞大了.

[ 本帖最后由 fengyu29 于 2007-11-19 13:28 编辑 ]
4
发表于 2007-11-19 14:24:25 | 只看该作者

“名言名句诗词歌赋”类词库的原则

  网上有多个版本的《中华诗词》软件,只是搜罗的诗文多寡而已。这类软件能够较好地提供多角度搜索功能,便于使用者查找、学习诗文名篇名句。而“名言名句诗词歌赋”类词库的制作是方便输入,提高文字录入速度,我们必须把握几个原则,否则即使辛辛苦苦弄出来,下载者一时兴趣而下载,但终因使用场合太窄而弃置不用。
  ①易录原则。易录原则就是当打字者想要输入某名句名篇时,能够记起开头几个字,否则,即使是千古名句名篇也是白搭。从这一原则出发,成为“此条”者,其开头一短句务必是普通人非常熟悉的!
  ②易记原则。这一原则与易录原则相似,但又有不同。在文章写作中,如果写作、打字者不能记起所要引用的名句、名篇,即使你的词库拥有历朝历代的所有名篇名句,只能养在深闺人未识。除非特别人士,普通人能够记住的名篇名句的量非常有限,快速输入这些名句名篇必须记住首句!因此,在制作该“词库”时必须精选再精选,其首句必须是琅琅上口、易诵易记的,不宜扩大过分选录范围。
  ③必需原则。这一原则要求制作词库前对可能需要这一词库的人群和比例作必要的预估和评价。需要经常性快速输入整句、整篇(仅指含标点32字以下的古典诗词曲)者可以说寥寥无几,我想只有大学里唐宋文学的专业研究人员才有可能有这种需求。因此扩大“名言名句诗词歌赋”的收录范围可能会劳而无功。至于该词库有无必要收录一些外国的名言警句,我建议看该名言警句译文的统一性和公众熟知程度。
  就是基于上述考虑,我才制作了“诗文666”这个词库。此后我又逐步添加了一些,已达682句,昨已上传,并加词库说明。说老实话,我制作这一词库主要目的并未方便文字输入,而是为了孩子的语文学习之用,^_^^_^。

[ 本帖最后由 sanwsw 于 2007-11-20 22:17 编辑 ]
5
发表于 2007-11-20 21:17:19 | 只看该作者

说说我的想法

很多人知道有这么一首诗或词,但是只记得其中的一句或者半句,如果输入法能根据这一句半句能联想整首诗词,那就方便使用者了,使用者就不必使用搜索引擎去搜索了。

选择的诗词肯定不需要很生僻的,因为不是专家学者,只是普通的使用者,所以需要收录的语句肯定是很有限的。要么整首都是脍炙人口,要么其中有一句经常被人使用的名句。我估计六七百首也就差不多了。
6
发表于 2007-11-22 14:05:26 | 只看该作者
  查看了网站上提供的诗词曲赋词库,所收词条数量较之我的《诗文名句》扩大一倍,相信用户输入的便捷性也会提高,但我收录词条的标准有不同看法,于是根据自己的需要,将两者合并,进行了删改,剩1210条,上传在此。
  我处理的规则如下:
  ①有对句不再收录该对句的首句为词条。如已收“白日依山尽,黄河入海流”,则不再收“白日依山尽”。同理,已收绝句整首为词条,则不再收该绝句首联为词条。
  ②删除单句词条。不管单句是对句的上联还是下联,我都删除,删除理由是一般人要输入这些句子都是一个对句整体输入的,只需输入一句尤其是输入对句的下联的时候很少。如已收“白日依山尽,黄河入海流”,则不再收“黄河入海流”这一词条。
  ③删除诗词曲赋的篇名词条。如要收入这些篇名为词条,也应该收入作者名为词条,不收作者名可能因为有专门的人名词库,同理,无须为篇名专门立词条。

  按上述规则处理后只剩1210条,奇怪的是我导入后只显示1209条,找不出原因。对比我原先制作的“诗文666”或更新版“诗文名句(682条)”,这一1210条的“诗文名句”词库收录更广、更全,左总功不可没,它不仅可供特别人士选用,也可供初高中学生诵读之需。
   诗文名句.rar (34.97 KB, 下载次数: 1390)

[ 本帖最后由 sanwsw 于 2007-11-22 16:23 编辑 ]
7
发表于 2007-11-22 14:17:36 | 只看该作者
谢谢楼上,已经导入试用。
8
发表于 2007-11-22 14:18:16 | 只看该作者
黯然销魂者,惟别而已矣。
9
发表于 2007-11-23 10:21:10 | 只看该作者
1210条和1209条的释疑,前者包含了两条“欲穷千里目,更上一层楼。”,它们的拼音和词频也完全一致,为何文本编辑过程没有除掉重复呢?是因为在拼音串和词频数值串之间,一条用了TAB作为分隔符,一条用了空格而已,导入过程拆分这两行,得到三个分离的属性,是完全相同的。
10
发表于 2007-11-23 10:28:27 | 只看该作者
说说“对句“取舍以求精简的思路,虽然联合输入的频度更大,可是好些拆开来也常用的,要是一刀给切了,总有些遗憾。
就如《登鹳雀楼》,四句中的末句——更上一层楼,在咱的印象中,单用是最为常见的,造句如下:经过……努力,取得了……成绩,为了更上一层楼,我们还得……,这里”欲穷千里目“是不便嵌入的。
11
发表于 2007-11-23 10:37:56 | 只看该作者
再说说注音的音节长度,在楼顶,咱提出了灵活处理,不拘泥于超长句用缺省给出的8个音节形式,因为这样,如果不采用通配符功能,就需要输入一句多一点儿的音节,实际上也就要求用户需要记住两句。

在继续制作这个库时,也感受到注音工具的不足,正琢磨着再改进一下,看看如何能正好产生第一句的音节,而不是现在的固定为8个,缩减工作(可至5个)必需人工操作,本来有个简单的想法可以处理五绝和七绝的,整理到宋词时,发现复杂性增加了,尤其是“错!错!错!”、“莫!莫!莫!”、“争渡,争渡”,似乎少于5个更愉快些。
12
发表于 2007-11-23 10:43:55 | 只看该作者
原帖由 ZXD4G 于 2007-11-23 10:21 发表
1210条和1209条的释疑,前者包含了两条“欲穷千里目,更上一层楼。”,它们的拼音和词频也完全一致,为何文本编辑过程没有除掉重复呢?是因为在拼音串和词频数值串之间,一条用了TAB作为分隔符,一条用了空格而已,导 ...



我自己也发现,但经你从专业角度一分析,更为清晰了。敬佩!敬佩!
13
发表于 2007-11-23 10:46:42 | 只看该作者
原帖由 ZXD4G 于 2007-11-23 10:28 发表
说说“对句“取舍以求精简的思路,虽然联合输入的频度更大,可是好些拆开来也常用的,要是一刀给切了,总有些遗憾。
就如《登鹳雀楼》,四句中的末句——更上一层楼,在咱的印象中,单用是最为常见的,造句如下:经 ...


  无须遗憾,像“欲穷千里目”、“更上一层楼”这样单句输入频度很高的名句,还怕系统大词库没收录?“诗词名句”或“诗词曲赋”这一个专业词库的使用对象是相对狭窄的。
14
发表于 2007-11-23 11:09:10 | 只看该作者
还未曾向三版释清一些思路,在此补充,有不对或疑似不对的,也请各位探讨。
主要是涉及到一个方向问题,和什么是系统词库?整理和编校的工作方法是什么?
咱的想法是——系统库,综合库也,支持广众交流用;“欲穷千里目”何以进入系统词库,需要常用,如果它单用频度不高,则系统库不收它,“更上一层楼”单用也较多,则系统库纳之;这时,第一步是收集到”欲穷千里目“这样的候选,顺便收进诗文库,第二步是考察诗文库,挑出常用的,复用到系统库。
现在系统库收了“欲穷千里目”单句,不见得就是好的,可能是整理还不够到位所致。
类似的,再举几个例子:赔了夫人又折兵,单用,其前句反而不单用;此地无银三百两,单用,其后句不常用;出师未捷身先死,常使英雄泪满襟,常见两句合用,前句单用也可。

[ 本帖最后由 ZXD4G 于 2007-11-23 11:13 编辑 ]
15
发表于 2009-7-29 12:25:22 | 只看该作者
这个下来用一用的哟,谢谢啦!
16
发表于 2009-7-29 12:35:00 | 只看该作者
这么老的帖子竟被你找到,佩服。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2025-12-26 18:01

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表