华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 13134|回复: 11
打印 上一主题 下一主题

你指间的行云流水源于这里(一)——紫光华宇拼音输入法词库建设纪实

[复制链接]
跳转到指定楼层
1
发表于 2009-4-7 13:11:38 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
你指间的行云流水源于这里(一)
——紫光华宇拼音输入法词库建设纪实
词库建设和改进是输入法所有工作中门槛最低的工作,稍有语言常识和编辑能力的人都可以来做,但是它又是输入法中工作量最大、最难的一项工作,其它工作可以一蹴而就,唯有词库是需要长期建设的。
紫光输入法发展十年以来,除了用户看到的和还没有看不到的功能外,输入法一直注重“内功”的修为,词库是紫光输入法十年以来不断提升的内功。
虽然曾经的许多岁月未能亲临,但是从接手工作以来看到的许多资料和道听途说,对以往的辛苦付出可以窥见一斑。在我的办公桌上的资料中有一打撕开的,但又整体的叠合在一块的字典。初次见到时,一直在纳闷,好好的字典,为什么要拆分成好几十本的小册子呢?稍后的了解是,这是为了向输入法中增加各个专业词库,保证所添加的词的正确、规范、具有代表性。没有从巨量的电子语料和海量网页中去提取,采用了最原始的方法,从公司的其它部门借调和征用了几十号的文职人员,辛辛苦苦的在电脑上敲了一月之久……辛苦的汗水放到几十万词库的汪洋中,似乎并没有闪烁。尊敬的用户仍然在不屑一顾……
记得曾经看过一篇搜狗官方博客上关于输入法词库建设的文章,繁琐的部门协作,原始语料的分词提取、过滤……再智能的算法和机器,后续都投入了大量的人力来勘误校对。用户口碑前开发人员从内心深处成就感的一点点满足,紫光抑或搜狗,笼罩在头顶的光环都是同样的灿烂。背后的艰辛付出却也有许多不同。巨量的互联网语料、地名词库……对于搜狗来说,都可以信手拈来。可是对于紫光来说,除过合作之外,只能通过其它来弥补。但是后期词库的人工处理,历经数十次大规模过滤筛选之后,在6.1版本中,为了使整句输入提升到空前的准确和智能,为了使词库扩充到理想的规模,ZXD4G忙活了好几个月……
作为紫光输入法词库建设的另一支力量不得不说,那是来自民间的力量,那是紫光输入法用户、版主、铁杆粉丝……因为它们的不断付出和持续更新。紫光输入法诞生了许多的超大词库……
上面的文字是为新版准备的,还有许多想写,并且写的比现在你看到的要好,后续补上吧。时间原因,就此搁笔了。
2
发表于 2009-4-7 13:32:29 | 只看该作者
紫光华宇拼音输入法系统词库及分类词库的整理倾注了ZXD4G、龙城水秀MM(姑且这样称呼吧^_*)及多位版主的大量心血,赞一个
3
发表于 2009-4-7 14:30:03 | 只看该作者
紫光华宇的每一次进步都凝聚了开发组朋友的无数心血,当然也有论坛上紫光新老用户的真诚建议和测试,以及众多版主的辛勤劳动,大家共同的努力,推动紫光华宇拼音的持续发展!
4
发表于 2009-4-7 14:49:02 | 只看该作者
采用了最原始的方法,从公司的其它部门借调和征用了几十号的文职人员,辛辛苦苦的在电脑上敲了一月之久……辛苦的汗水放到几十万词库的汪洋中,似乎并没有闪烁。

赞赏,表扬。
5
发表于 2009-4-7 14:53:57 | 只看该作者
整理词库是个苦力的活……非常辛苦而又似乎成效不大,中国的语言文学实在是太博大了! 向所有整理词库的人士,不管是官方的还是民间的,致敬!
6
发表于 2009-4-7 17:17:41 | 只看该作者
整理词库需要顶着精神崩溃的危险~~工作量大,效果似乎不太明显。月初开始手工整理我合并了所有词库的“超大词库”,共计78万余词条。每天大概能坚持整理1500条左右,主要是删除多音字错误词条、删除莫名其妙的词条、包含繁体字的词条、调整同音词条的词频等等。

估计整理完不知道哪一年了
7
发表于 2009-4-13 16:53:19 | 只看该作者
若是为了提高输入效率而整理词库,很难见到成效。将其作为一项趣味工作和茶余饭后的业余爱好倒是不错。支持。
8
发表于 2009-4-13 20:24:29 | 只看该作者
龙城应该把我们最近做的“自动词库整理”说说,这个功能实现没有“人工词库整理”这么辛酸。反而有很多成就感。

基本原理:通过网络爬虫下载语料,自动词库整理程序分析(当然选那些出现频度最高的,系统词库中未收集的词),人工审查,之后增量的加入到系统词库中。供网络用户自动更新。

这个自动整理词库机制很快就可以完成,可能从本周末开始,大家就可以感受到紫光的词库更新频度会增加许多的。
9
发表于 2009-4-13 20:34:31 | 只看该作者
原帖由 sunmd 于 2009-4-13 20:24 发表
龙城应该把我们最近做的“自动词库整理”说说,这个功能实现没有“人工词库整理”这么辛酸。反而有很多成就感。

基本原理:通过网络爬虫下载语料,自动词库整理程序分析(当然选那些出现频度最高的,系统词库中未 ...


有点担心大量的错词、非词、废词由此进入系统词库……
10
发表于 2009-4-13 20:49:20 | 只看该作者
原帖由 sanwsw 于 2009-4-13 16:53 发表
若是为了提高输入效率而整理词库,很难见到成效。将其作为一项趣味工作和茶余饭后的业余爱好倒是不错。支持。


我个人人工整理词库的目的可不是提高输入成效啊!只是现在很少有人这样做了,因为费时间,成效不大所以官方不大可能投入人力做这个,但词库中存在大量的错误词条是不争的事实。所以,个人做这个工作,虽然时间可能拖的比较长,但是也算一劳永逸吧,后续的词库建设可以用这个整理后的资料做对比。
11
发表于 2009-4-15 02:16:10 | 只看该作者
原帖由 sunmd 于 2009-4-13 20:24 发表
龙城应该把我们最近做的“自动词库整理”说说,这个功能实现没有“人工词库整理”这么辛酸。反而有很多成就感。

基本原理:通过网络爬虫下载语料,自动词库整理程序分析(当然选那些出现频度最高的,系统词库中未 ...

不知怎么从众多的语料中将有用的词切分开来,而且切分的恰到好处。是个很技术含量的活,拭目以待中。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2025-12-24 06:47

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表