华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 13022|回复: 3
打印 上一主题 下一主题

拼音输入法系统词库的构建

[复制链接]
跳转到指定楼层
1
发表于 2007-12-25 13:33:20 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
拼音输入法系统词库的构建

  拼音输入法系统词库既要满足用户的便捷输入需要,又要控制重码率,既要满足绝大部分用户日常快速打字需要,又要基本满足专业人士输入专业领域常用词的输入需要,工程十分浩大,技术要求十分之高。构建拼音输入法的系统词库必选坚持原则,严肃标准,科学调频。
  一、构建原则
  制作系统词库前必须解决好收录总量、读音参考标准、收词范围词频设定等问题,并在制作过程中始终围绕上述问题坚持科学原则,方能完成造福国人的拼音输入法标准系统词库。
  1.规范性原则。作为纯音码输入法,纳入系统词库的词条读音必需准确规范,读音如有分歧,当以《现代汉语词典》、《现代汉语规范词典》为主要依据,第次参考《汉语大词典》、《辞海》《词源》和其他专业科学词典。坚持规范性原则并不反对特意保留一些错误读音,如河北之“大城县”,除正确读音“dai’cheng’xian”外,应设“da’cheng’xian”这个读音词条。
  2.统一性原则。统一性原则包括两层意思,一是收录各学科之词条标准宽严要相对统一,二是收录古汉语词时语音标准要相对统一。
  3.便捷性原则。实现便捷目的既要搜罗相当丰富的词条,又要尽量减少重码。要通过科学测试和多方案比较,测算出系统大词库词条的合理条数。
  二、收词范围
  中国九年制义务教育的普及,基础教育坚持推广普通话的努力,拼音输入法智能组词水平的提高,拼音输入法新手无须特定学习即会使用的特性,拼音输入法的用户必将越来越庞大,国家教育部、国家语委和中科院计算机所的专家、学者为世界华文电脑用户打造一个通用语音输入法词库显得十分紧迫。为满足绝大部分拼音输入法用户的日常工作、生活文字输入之需要,这份标准系统词库的收词范围应予科学界定。一个满足绝大部分用户需要的系统词库,除基本语词外,应该包括一些学科的常用词和常用短语。鉴于紫光词库目前只能挂接16个分类词库,就根据《中国大百科全书》的分卷框架列出16类:
  1.宗教、哲学、政治、法学
  2.历史、地理、天文
  3.文学
  4.军事、情报
  5.经济学、财政、税收、金融、价格
  6.社会学、民族学、考古学、文物
  7.生物学、医学、药学
  8.音乐、舞蹈、美术
  9.戏剧、戏曲、曲艺、电影、电视、新闻出版
  10.语言文字、图书馆学、档案学
  11.教育学、心理学、体育、数学、物理、化学、空间科学
  12.大气科学、环境科学、海洋科学、水文科学、测绘学、地质学
  13.农业、矿冶、机械工程、化工、电子学与计算机
  14.化工、纺织、土木工程
  15.规划、建筑、园林
  16.水利、交通、航空
  如经科学论证确定了收词的学科范围,还要确定具体的词条出处:
  1.《现代汉语词典》、《现代汉语规范词典》和《中国大百科全书》中的全部词条;
  2.各学科专业词典;
  3.日常口语词
  4.方言词
  三、词条长度和词频设定
  根据打字者思考的特点,文字录入分照稿打字临屏写作两种。前者除按词录入外,更多地会考虑按短语录入;后者由于要边思考边录入,并不十分关心录入的速度,更多地是关心词语输入首见率。因此编辑系统词库时应该收录相当数量的短语。但无论是前者还是后者,都与重码率、词频密切相关。
  现代汉语以双音节词为主要构词形式,考虑结构助词“的”“地”“得”,收录词库的短语应控制在4-6字之间,除非出现频率非常高且较为紧固,超过6字短语,一般输入者自然将其切更小单位的短语,应严格控制5字以上短语。
  根据打字者打字目的,文字录入分为写作打字和聊天打字两类。前者,用词相对规范,输入者对词和短语的切分相对合理;后者临时起意情况较多,率性而为较为多见。对于为写作而打字(包括专业人员打字),从通用词典、专业词典辑录的词条应该能够满足前者的打字需要。对于聊天打字,则须科学分析搜索引擎、聊天记录,整理出主要满足普通聊天者的口语化短语。特别是后者,其对于词、短语的切分可能不很科学,但往往出现频率更高,非常实用,需加重视。这方面的资料,普通词库制作爱好者很难获得,搜狐、腾讯、谷歌等网络公司在制作系统词库时有着先天优势。
  科学、合理设定词条词频,对于提高拼音输入法词语、短语输入时的首见率至关重要。设定词频有着很高的技术含量,非中文信息化专业人员或者没有专业软件,很难对包含几十万条的系统词库的词频进行科学、合理的设置,不再赘言。
  制作拼音输入法的系统大词库不单需要从事者有较好的普通话正音能力,还要有广阔的知识视野和计算机专业水平。也正因为这一点,词库制作爱好者想靠一人之力制作一份“完美”的系统大词库几乎是不可能完成的任务。爱玩输入法、爱好拼音词库制作人士倒可以多花时间和精力在专业词库的DIY上,既可获得自己动手的体验和乐趣,又可为你所钟情的拼音输入法真正完美的系统大词库面世添砖加瓦。
  四、其他
  系统大词库在制作时还应注意以下几点:
  一是添加适量“姓X”格式词条。经常性大量录入陌生姓名的时候还是很少的,因此在系统词库中只需添加一些较为生僻姓氏的“姓X”格式词条。常见姓氏建议使用者采用以词定字的方式输入。二是人名词条要控制。进入系统词库的人名和人物称谓,一定要是较为著名的古今人名,近现代中外政要人名可适量收录。无论是专业聊天还是日常工作、生活,不可能海量输入当代艺人的姓名的,因此系统词库中应从严控制进入其中的当代艺人词条数量。三是地名、书名等专有名词考虑通用性。中国地名以县级以上城市名、政区名为妥,适量收录较有名的古地名;国外地名以收录国名、首都名称、一级政区名和世界著名城市名为好。四是单字读音收录要兼收并蓄。微软的全拼输入法较好地收录了GBK字符集内汉字的读音,为特定多音词、异读词的准确读音、习惯读音、方言读音者提供快捷输入的可能。随着历史变迁,汉字上古音、中古音和现代音有着很大变化,拼音输入法没有必要泥古不化,将“远上寒山石径斜”这一词条的“斜”字拼音注为xia。另一方面,由于文化的继承性和稳固性决定了一些古代特定词的读音要长久地传承下去,类似“单于”一类的词语你必须考虑它的特殊读音,而不要管《现代汉语词典》、《普通话异读词审音表》是否收录。

[ 本帖最后由 sanwsw 于 2007-12-25 13:35 编辑 ]
2
发表于 2007-12-25 13:37:48 | 只看该作者
不错!支持!
3
发表于 2007-12-25 14:57:10 | 只看该作者
了解了一下词库的构造
4
发表于 2007-12-25 15:09:57 | 只看该作者
坚持规范性原则并不反对特意保留一些错误读音,如河北之“大城县”,除正确读音“dai’cheng’xian”外,应设“da’cheng’xian”这个读音词条。

早就想说这个问题,但是一直就是没有敢说,就怕被人骂。。呵呵
就像三版另外一个帖子里所列举的那些词,真正能够把正确的读音读出来的人并不多,多数人所使用的都是错误的读音,如果在词库中只是单单把正确读音保留,而放弃错误的读音,也许就会有很多人开骂了。。
例:
紫光就是个垃圾。。连XXXXXX都打不出。。。
说的是光明正大。。但是他哪里知道自己所输入的是错误拼音呢。。
因此强烈支持三版的这个想法!

[ 本帖最后由 yiwon 于 2007-12-25 15:15 编辑 ]
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2025-12-25 00:08

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表