华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
楼主: 落寞的湖
打印 上一主题 下一主题

紫光超大词库“蛇语者1.0”震撼发布!

[复制链接]
31
 楼主| 发表于 2008-6-12 00:07:00 | 只看该作者
原帖由 AhMan 于 2008-6-10 15:32 发表
打开词库稍看了一下,有些词语应注另一个音(或应兼注另一个音)。

霓裳 ni'chang (shang)
国都 guo'dou (du)
厦大 sha'da (xia 厦门大学的厦)
幢幢 zhuang'zhuang (chuang)
扒光 pa'guang (ba)
都对 du'dui ...





感谢ahman大师指点!你举的类似词语可能在“去重复”时去掉了,还有的是错音,我将陆续添加或纠错。
还请继续关注!
32
 楼主| 发表于 2008-6-12 00:18:20 | 只看该作者
原帖由 sanwsw 于 2008-6-11 19:51 发表

  例词反映了三个问题。一是注音严谨性。“都对”、“厦大”属于注音错误。二是词语、短语歧义性,如“国都”,编码为guodou,实为一个短语,guodu是名词。三是拼音输入法拼音编码容错限度。“霓裳”一词,个人认 ...



“都对”、“厦大”属于注音错误无疑,“国都”原本也是注音错误,但经你一说,可算短语。

你说的三个问题是做词库是不可回避的问题,最追求严谨性,希望借助各位,打造出一款精准好词库!
33
发表于 2008-6-13 01:44:10 | 只看该作者
下载了再说!!!!!!!!!!!!!!!!!!!!!!!!!
34
发表于 2008-6-18 17:37:03 | 只看该作者
同是大词库的爱好者,友情支持一下.
但是提醒注意,过于庞大的词库会增加翻页次数,某种情况下会使找词变得烦琐,反而事倍而功半.所以我的大词库添加词时是很谨慎的.
35
发表于 2008-6-20 20:50:26 | 只看该作者
词库的名字取的怪怪的,为什么要叫“蛇语者”啊,搞不懂这么好的词库取这么难听的名字
36
发表于 2008-6-20 20:51:48 | 只看该作者
原帖由 fengyu29 于 2008-6-18 17:37 发表
同是大词库的爱好者,友情支持一下.
但是提醒注意,过于庞大的词库会增加翻页次数,某种情况下会使找词变得烦琐,反而事倍而功半.所以我的大词库添加词时是很谨慎的.

风版还是很人性化的,现在还在用,呵呵,不过,似乎已经很久没更新了,期待下.....
37
发表于 2008-6-24 23:59:05 | 只看该作者
原帖由 kingdick 于 2008-6-1 18:46 发表
就差我这一楼了。

又是一个大词库,而且是超级大。


大词库和智能性的矛盾去年就开始争论,始终没有一个结论。


晕,这有什么好争的,黑马神拼的智能性好,词库是2500万,就这还嫌不够用...

超过别人在争吧,现在谁都没资格
38
发表于 2008-6-25 00:04:09 | 只看该作者
原帖由 fengyu29 于 2008-6-18 17:37 发表
同是大词库的爱好者,友情支持一下.
但是提醒注意,过于庞大的词库会增加翻页次数,某种情况下会使找词变得烦琐,反而事倍而功半.所以我的大词库添加词时是很谨慎的.


大词库是有缺点,但不一定是大词库本身造成的.

某些不当的用法,比如...
1.不开调频.大词库不是给盲打准备的,所以就必须开调频.开了,用一段时间,翻页率会慢慢降低.

2.删词功能.有些政治长词...删掉就好了.


当然超大词库本身也有问题,新增的东西其实并不多,更多的只是习惯语,的字组合.

谨慎就会被束缚,连我自己也后悔没有早些用别人的百万词库(而是抱着自己的20万词库用大半年).
39
发表于 2008-6-28 23:50:01 | 只看该作者
多关注一下,希望楼主多多更新!

再一个把蛇语者的名字改了吧,还是不怎么习惯
40
发表于 2008-7-5 12:35:38 | 只看该作者
友情支持下好多了吗。
41
发表于 2008-7-5 12:50:40 | 只看该作者
加加论坛有301万巨无霸词库,建议楼主去下载看看。
42
 楼主| 发表于 2008-7-6 23:45:34 | 只看该作者
原帖由 真拼音佳佳 于 2008-6-25 00:04 发表


大词库是有缺点,但不一定是大词库本身造成的.

谨慎就会被束缚,连我自己也后悔没有早些用别人的百万词库(而是抱着自己的20万词库用大半年).



呵呵,超同意这观点,人要不断尝试,才会进步!
43
 楼主| 发表于 2008-7-6 23:56:55 | 只看该作者
原帖由 得闲饮茶 于 2008-6-28 23:50 发表
多关注一下,希望楼主多多更新!

再一个把蛇语者的名字改了吧,还是不怎么习惯




呵呵,蛮执着的一位朋友,这个名字既是我的生肖,也有一段回忆,我写过一组小诗“白垩纪蛇语”,能不能包涵我取这名吗?
44
 楼主| 发表于 2008-7-6 23:59:47 | 只看该作者
原帖由 sanwsw 于 2008-7-5 12:50 发表
加加论坛有301万巨无霸词库,建议楼主去下载看看。




呵呵,早看了那个词库,那里面错词、非词、废词不是一般的多,受不了!
45
 楼主| 发表于 2008-7-7 00:03:05 | 只看该作者
原帖由 fengyu29 于 2008-6-18 17:37 发表
同是大词库的爱好者,友情支持一下.
但是提醒注意,过于庞大的词库会增加翻页次数,某种情况下会使找词变得烦琐,反而事倍而功半.所以我的大词库添加词时是很谨慎的.




严重谢谢版主友情支持!
我的词库是不敢跟版主的比,你的是完美优化,我的既不完美,也不够优化,呵呵~
46
发表于 2008-7-7 08:45:49 | 只看该作者
原帖由 落寞的湖 于 2008-7-7 00:03 发表




严重谢谢版主友情支持!
我的词库是不敢跟版主的比,你的是完美优化,我的既不完美,也不够优化,呵呵~


落寞兄也太谦虚了!呵呵!
47
发表于 2008-7-8 12:43:57 | 只看该作者
非常感谢楼主的辛勤劳动,支持!
48
发表于 2008-7-21 10:35:46 | 只看该作者
  相当流畅,谢谢楼主倾力奉献!当收录大型成语词库后,一定要解决好因古今通假造成的异型成语甄选问题,如你的“迷途知返”这个成语。
49
 楼主| 发表于 2008-7-22 22:26:05 | 只看该作者
原帖由 sanwsw 于 2008-7-21 10:35 发表
  相当流畅,谢谢楼主倾力奉献!当收录大型成语词库后,一定要解决好因古今通假造成的异型成语甄选问题,如你的“迷途知返”这个成语。



多谢兄弟垂青!

本词库正在紧张地更新中,并坚持规范为第一宗旨。预计二字词会有大的优化,四字以上词会增加,非词和错词会进一步减少,新版词库力争在紫光正式版后推出。
50
发表于 2008-7-23 13:00:45 | 只看该作者
兄台,想找那个什么紫光的大语料库,不知道哪里下载啊?
51
发表于 2008-7-23 13:35:43 | 只看该作者
原帖由 落寞的湖 于 2008-7-22 22:26 发表



多谢兄弟垂青!

本词库正在紧张地更新中,并坚持规范为第一宗旨。预计二字词会有大的优化,四字以上词会增加,非词和错词会进一步减少,新版词库力争在紫光正式版后推出。


新版推出后,莫忘了在置顶帖(词库、特殊短语专帖)中的链接里也更新一下!谢谢!预祝落寞兄成功!

52
发表于 2008-7-23 15:13:17 | 只看该作者
原帖由 真拼音佳佳 于 2008-6-24 23:59 发表


晕,这有什么好争的,黑马神拼的智能性好,词库是2500万,就这还嫌不够用...

超过别人在争吧,现在谁都没资格

佳佳啊,拜托你懂点知识再来说好吗?黑马靠的是词库?请你把词库和语料库分清楚再说好不好?词库是不具有任何智能参数的,而语料库则不同。
53
发表于 2008-8-29 09:56:05 | 只看该作者
非常辛苦,非常感谢!!
54
发表于 2008-11-29 12:04:34 | 只看该作者
好像很久没看到落寞的湖,有点落寞。
55
发表于 2009-7-2 06:57:46 | 只看该作者
谢谢分享。
楼主辛苦了
56
发表于 2012-2-26 22:28:27 | 只看该作者
谢谢!
57
发表于 2012-8-3 08:26:15 | 只看该作者
紫光也有百万级词库
蛇语者收词160多万
词频好,废词少
你能想到的短语它都有
质量绝对一流
58
发表于 2012-8-3 08:47:22 | 只看该作者
“蛇语者”要更新网络新词啊!
59
发表于 2012-9-1 08:36:29 | 只看该作者
本帖最后由 wang2lang 于 2012-9-1 08:38 编辑

唱歌的蛇信子作者的新浪博客:白垩纪蛇语
http://blog.sina.com.cn/changgedeshexinzi

写诗滴文艺青年哦
可惜好久没更新了
60
发表于 2012-9-1 08:52:24 | 只看该作者
落寞的湖年龄不小了……
应该也50岁左右了吧!
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2025-12-24 10:25

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表