华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 11227|回复: 8
打印 上一主题 下一主题

关于汉语使用和输入法词库建设的一点思考

[复制链接]
跳转到指定楼层
1
发表于 2008-10-16 15:36:26 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
关于这一方面有一些零零散散的想法,但一直不知道如何有条理的组织。为了能很快的写下来,索性笔随心动,可能语无伦次,可能没有条例。见谅。
随着互联网诞生之后,汉语语言发展迅速可以说到了泛滥的程度。这是汉语发展的福音也是灾难。一方面沉寂已久的汉语词库,语言成型的风格得到了空前的繁荣,另一方面,大量的错误词汇在人的理解能力可以正确解析的前提下,在网络中大量涌现。而这一现象却正在不可控制的继续发展着。就这一方面,http://blog.sina.com.cn/s/blog_4be9236d010008it.html 这篇文章里说的很透彻。在这里主要谈紫光输入法词库的发展。
输入法的发展无论如何都受到了它非常大的影响和推进。输入法的诞生是为了中文用户使用计算机,而新一代输入法的功能改进纯粹是为了网络应用。输入法不停的在方方面面来满足用户尽可能多的输入需求,从基本的汉字输入到标点,表情,特殊符号,整句匹配,智能组词那真是应有尽有了。输入法为了提高用户的输入速度,不得义兼容用户的错误习惯,现在另一个问题是又不得不收漏网络上的错误词组,因为某些词从汉语的严格定义上是错误的,但是几乎在使用中每一个人,在交流的双方都明白是什么意思。甚至在使用这些的时候让他们感觉到快乐。现在被用户接受的许多网络新词都加入到了输入法中,还有一大堆游戏词库,这导致输入法的词库越来越大,现在倒是还可以应付,如果有一天增加到了影响输入法性能的时候,不知道该怎么处理,是不是又需要精简词库了。输入法本身系统词库的建设确实是一个问题。
还有一些词是很难单独判断正误的。比如,中秋前夕,在整理词库时紫光输入法打出了一个“娇娇明月”,这是 词库中原有的词,根据切实考证,历来使用的是“皎皎明月(紫光系统中暂无这个词)”,但是就个人认为无论从哪方面分析,这两个词都是讲的过去的,“娇娇明月”可以认为作者是为了形容月亮的姿态,而“皎皎明月”是指月亮的光亮。有时真的很难判断一个词是否是错误的。而词的正确性很大程度上也与语境有关。记得曾经写过一篇日记,先是回忆了我一个叔父的人生经历,在最后总结时说但愿不要重蹈“父”辙。当时先是写了重蹈覆辙,但是突然觉得如果利用谐音改成重蹈父辙的话,无论是从语义表达上和语言本身的跳跃性、趣味性上都是更佳的。 就写这些吧。
2
发表于 2008-10-16 16:21:04 | 只看该作者
我觉得为了今后不重复劳动,应该从现在起建立起非常详细的分类词库。将将他们分开整理和发布,并确保他们具有极高的正确率(比如成语词库、工程词库、物流专业词库...)。那些为了容错或者其它考虑而收进来的词条也应该按照它们的功能和目的分类整理和发布(比如网络热词、容错词库...)。由用户选择使用那些词库的组合。一定不要把它们放到一起整理,因为到时候想分开就难了。
另外紫光应该提供完善的词库操作工具(不仅仅限于导入和导出)
3
发表于 2008-10-16 23:04:39 | 只看该作者
原帖由 krsun 于 2008-10-16 16:21 发表
我觉得为了今后不重复劳动,应该从现在起建立起非常详细的分类词库。将将他们分开整理和发布,并确保他们具有极高的正确率(比如成语词库、工程词库、物流专业词库...)。那些为了容错或者其它考虑而收进来的词条也应 ...

非常同意并支持你的以上观点
4
发表于 2008-10-17 08:02:45 | 只看该作者
哦!原来水秀是MM?
5
 楼主| 发表于 2008-10-17 13:51:04 | 只看该作者
原帖由 krsun 于 2008-10-16 16:21 发表
我觉得为了今后不重复劳动,应该从现在起建立起非常详细的分类词库。将将他们分开整理和发布,并确保他们具有极高的正确率(比如成语词库、工程词库、物流专业词库...)。那些为了容错或者其它考虑而收进来的词条也应 ...


krsun 高见,都是真知灼见。一直是这么想的,整理输入法词库的工作确实是一件头疼的事情。这样做须做许多的工作呀,但是还是必须这么做的。谢谢krsun的意见
6
发表于 2008-10-17 20:03:04 | 只看该作者
原帖由 野风 于 2008-10-17 08:02 发表
哦!原来水秀是MM?   


如何得知?
不会是看头像吧
7
发表于 2008-10-17 20:14:58 | 只看该作者
原帖由 ljdqe 于 2008-10-17 20:03 发表


如何得知?
不会是看头像吧


嘿嘿!就是看头像的!怎么?有意见?
8
发表于 2008-10-21 12:55:20 | 只看该作者
原帖由 krsun 于 2008-10-16 16:21 发表
我觉得为了今后不重复劳动,应该从现在起建立起非常详细的分类词库。将将他们分开整理和发布,并确保他们具有极高的正确率(比如成语词库、工程词库、物流专业词库...)。那些为了容错或者其它考虑而收进来的词条也应 ...


非常同意并支持你的以上观点
9
发表于 2008-10-21 13:08:28 | 只看该作者
希望紫光可以给我们这些爱好者透露一些开发计划,也好让我们有点儿盼头。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2025-12-24 07:24

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表