华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 12510|回复: 4
打印 上一主题 下一主题

关于词库分类

[复制链接]
跳转到指定楼层
1
发表于 2009-3-11 16:43:01 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
虽然输入法目前的词库有几个大的分类,但是对于用户使用和未来的词库建设都远远不够,从输入法长远考虑,打算对词库分类重新梳理,并着手各个专业的词库整理。
但是如果单一的按专业分的话,专业细分会太多,为了便于词库整理和考虑到用户的实际需求,在此征询各位用户的建议。请你说出你想要的词库分类方法。

                  龙城水秀
                         2009-03-11
2
发表于 2009-3-11 17:05:33 | 只看该作者
请问开发组使用什么方式存储和整理词库
是使用数据库还是文本文件呢
建议使用数据库进行整理
这样的话建立一个类别表和一个词汇总表以及一个词汇类别连接表,就可以了
随时可以添加一个类别,并且指定给任何词汇。
这样类别可以分的很细,类似财务的科目设置

一级科目
             二级科目
                          明细科目
......

比如
常用词词库
                 精简常用词
                                  精简常用2字词
                                  精简常用3-4字词
                                  精简常用成语
......
利用数据库的筛选查询功能可以随时导出特定类别的词库。非常方便。

[ 本帖最后由 krsun 于 2009-3-11 17:12 编辑 ]
3
发表于 2009-3-11 19:53:37 | 只看该作者
分类词库出现N年了,没怎么觉得特别的好。官方只要整理出基本词库、大词库两个就行。我现在只有两个词库,user,另一个是把所有的词库都合并后的大词库。毕竟对整理词库有兴趣的人太少了。


现在缺少的一个功能就是方便的词频调整了。像 “那里”、“哪里”这两个词,动态方式的话总是变来变去,固定的话又不能方便的确定哪个在前面。所以,应该先考虑实现这个吧?
4
发表于 2009-3-12 06:12:45 | 只看该作者
那么K版觉得基本词库和大词库通过什么途径整理出来呢?每次都逐词修订一遍吗。
如果你说当然不用每次都重新修订,我有一个经过多年使用和修订几乎百分之百正确的子集,再加上最近修订的其它词汇就可以发布新版了。那么你说的这个子集是否也应该不断扩充呢。这其实也是一种分类。
比如:
标准词库
        核心标准词
                  1级待确认标准词
                                 2级待确认标准词
                                                用户提交标准词
......

建议紫光发布新版本的时候提供一个精简的标准词库(其中的词汇正确率极高)和若干个专业词库的组合。比如成语词库、俗语词库、网络用语词库、机械、化工......,这些专业词汇尽量要避免交叉。
这样用户可以根据自己的需要选择一个比较好的组合(默认可以全部选中)。
标准词库中有的词汇,不应该在其它专业词库中再出现。
不建议象现在这样提供一个大的系统词库,其中也包含部分常用的专业词汇。这样容易产生重复。

其实K版严格的讲也不是仅仅使用两个词库,把所有词库合并后的大词库,应该视为一个词库组合。^_^

现在词库词条数越来越大,其中充斥着许多错词或者不常用的词汇以及词库作者自己的习惯用语。
造成使用者其实有非常多的词是用不到的。但是这些词库体积很大,造成用户不易或者根本不能根据自己的需要进行整理。
觉得去掉许多废词或者不常用词的方法就是将词库分成小块各个击破。
这样词库的分类就成为了必选的方法。
这个分类整理的工作不是由一般的词库爱好者来完成的,应该由紫光词库开发者来搭建这个环境。

词库的整理最最重要的是正确,如果一个词库推出后,大家使用中感觉经常出现错词,或者自己根本不想使用的词总是出现还很靠前,就会慢慢放弃使用。

[ 本帖最后由 krsun 于 2009-3-12 06:13 编辑 ]
5
发表于 2009-3-12 19:25:33 | 只看该作者
是否可以根据音节分类呢?

例如:shou ji ,这样同样音节的词就可以放到一起,便于调整词频。


我的意思就是,不要让用户过多的整理词库。官方做好是关键。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2025-12-26 05:43

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表