华宇拼音输入法论坛

标题: 华宇拼音输入法大语言模型文件下载 [打印本页]

作者: 野风    时间: 2008-7-25 18:45
标题: 华宇拼音输入法大语言模型文件下载
为了方便华宇拼音输入法爱好者对于大型语言模型文件的使用,现将四哥原来发表的分散于若干个帖子中的多卷本大型语言模型文件,集中在本帖子中。为了方便大家的下载,bestdata 分三卷、welldata 分二卷、gooddata 分一卷。
追求整句准确率又不在乎几十兆硬盘空间的紫光爱好者可以根据自己的实际情况选用。
使用方法:将下载并解压后得到的 bigram.dat 复制到 "%ALLUSERSPROFILE%\Application Data\unispim6\wordlib" 下覆盖同名文件即可。
若华宇安装在c盘:
windows xp系统:相应的路径为:"C:\Documents and Settings\All Users\Application Data\unispim6\wordlib"
windows 7 系统:相应路径为"C:\ProgramData\unispim6\wordlib"

注:上述文件夹为隐藏文件夹,需关闭文件夹的隐藏属性,才能找到!

bestdata:

bestdata.part1.rar (19.07 MB, 下载次数: 8909)



bestdata.part2.rar (19.07 MB, 下载次数: 8332)


bestdata.part3.rar (4.12 MB, 下载次数: 8527)

将上面三个分卷全部下载后,在同一目录下解压,得到最大语言模型文件 bigram.dat 76.9M


welldata:
welldata.part1.rar (19.07 MB, 下载次数: 4527)


welldata.part2.rar (10.88 MB, 下载次数: 3726)
将上面二个分卷全部下载后,在同一目录下解压,得到中型语言模型文件 bigram.dat 49.1M


gooddata:
gooddata.rar (16.99 MB, 下载次数: 4550)
将上面的附件下载后,解压得到最小语言模型文件 bigram.dat 24.5M





作者: 岳家军    时间: 2008-7-25 19:13
个人觉得那个最小good25m的才是最好的,不影响反应速度和上屏速度。
差距也不是很大,我现在就用那个25兆的。速度没有任何影响。而这两个应该多少有点影响。最大的那个我都没有试过,中间那个我试了一下,如果挂接了,感觉速度最多和搜狗的差不多,甚至还差点,这样也就失去了紫光新版速度快的优点了。至于说那个最大什么样……,请大家谈谈。
作者: 野风    时间: 2008-7-25 19:26
我的配置可能好一点,用bestdata 用了很长一段时间,其间特意跟搜狗3.3比了一段时间,没感到有明显区别。
作者: michsun    时间: 2008-7-25 22:37
在语言模型出来的时候我个人比较看中well,因为就体积和效果来看是比较合适的,也试用了很长的一段时间。同时在公司电脑上使用best,最后发现其实如果机器不错的话用best卡的情况几乎没有的。

同时与google比较(sougo一直没用)和well比较效果比较明显,当然google没有太大的可比性,但是语言模型的大小决定效率这个是不争的事实。

多花些时间使用,找到适合自己的其实才是最好的!
作者: 步虚    时间: 2008-7-26 01:24
个人觉得,语言模型的大小对上屏速度其实不会有太大的影响,关键还是对所用系统本身的优化(尽可能关掉或少启动一些不必要的程序)。

本人用的机子是老掉牙的Dell  Pentium III + 512MB的内存。因为噪声特别小,估计一时半会还不会淘汰它。而语言模型,我挑了个最大的(bestData),用起来快速流畅,感觉很好。

另外,野风说得对,新版本的语言模型+系统词库的组词、造句能力的确已经很强了。最近几天我一直试着只用大语言模型+系统词库,感觉也非常好。只是成语、诗词名句和常用文言文略显少了点。

[ 本帖最后由 步虚 于 2008-7-26 03:12 编辑 ]
作者: 野风    时间: 2008-7-26 08:13
原来我们习惯于将紫光的“bigram.dat”称为“大语料库”。现在根据四哥的建议:
原帖由 ZXD4G 于 2008-7-24 19:42 发表
有必要正名一下有感“语料”一词正在被滥用,故说明一下。
本话题提及的大文件,称之以“模型库”或“模型文件”比较恰当;尽管“语料”有生熟之分,总的来说还是像文本,保证兼容性(大家都看得懂),一般来说,加工不会太深入,也并不专用于某一款软件。

改称为“模型库”。个人感觉确实是如此,语料库不管是“生”、还是“熟”,都是文本格式,故也能通用于各个输入法。而语言模型文件则是为某个输入法量身定做的,基本上没有通用于别的输入法的可能。


作者: 野风    时间: 2008-7-26 17:22
原帖由 步虚 于 2008-7-26 01:24 发表
个人觉得,语料库的大小对上屏速度其实不会有太大的影响,关键还是对所用系统本身的优化(尽可能关掉或少启动一些不必要的程序)。

本人用的机子是老掉牙的Dell  Pentium III + 512MB的内存。因为噪声特别小,估 ...


这个帖子的最终建立,还是源自于你步虚兄的动力啊!
作者: 岳家军    时间: 2008-7-26 21:35
从下载量看,最大的似乎最受欢迎。
作者: cqcq    时间: 2008-7-26 21:38
其实紫光应该直接推出普通语句库的正式版和大语句库的加强版,这样比较方便。
另外等紫光可以自造词参与组句再试用了,每个人都有自己的输入环境,自造词不能组句的话,实际体验还是很欠缺的。这个不是靠语句库有多大能解决的问题。这次新版还是没有加入自造词组句的功能,很失望。
作者: 岳家军    时间: 2008-7-26 22:08
原帖由 cqcq 于 2008-7-26 21:38 发表
其实紫光应该直接推出普通语句库的正式版和大语句库的加强版,这样比较方便。
另外等紫光可以自造词参与组句再试用了,每个人都有自己的输入环境,自造词不能组句的话,实际体验还是很欠缺的。这个不是靠语句库有多 ...

如果条件不成熟,我反对用户词库参与组词。否则用了一段时间就会因为词频调整造成智能水下降,会被人误解成智能差的输入法。

[ 本帖最后由 岳家军 于 2008-7-26 22:09 编辑 ]
作者: 野风    时间: 2008-7-26 22:30
原帖由 岳家军 于 2008-7-26 22:08 发表

如果条件不成熟,我反对用户词库参与组词。否则用了一段时间就会因为词频调整造成智能水下降,会被人误解成智能差的输入法。

赞同岳先生的观点!
作者: kork2006    时间: 2008-7-27 01:49
我的机子老了
一般的词库已经够用了
需要的时候再来下载
作者: cqcq    时间: 2008-7-27 17:55
所谓的智能性,首先体现在用户本身的使用环境上,而不是看人民日报准确率。
用户环境的特点就是1.口语化多。2,随想随打,断句多。3,用户特有词汇多。

很久以前我在文章里就分析过自造词组句的问题,其实大多数自造词和通用词汇都不构成重码的,即使简单用重码来决定自造词是否参与组句,都可以极大提高用户体验。
因为造不出宇宙飞船,所以飞机不如自行车。这种逻辑真是有趣。加加的大师们从来都是用这种口气说话,不想在紫光再听到了。
加不加自造词,是紫光的自由。反正不用紫光也没有任何损失。
作者: 岳家军    时间: 2008-7-27 18:23
原帖由 cqcq 于 2008-7-27 17:55 发表
所谓的智能性,首先体现在用户本身的使用环境上,而不是看人民日报准确率。
用户环境的特点就是1.口语化多。2,随想随打,断句多。3,用户特有词汇多。

很久以前我在文章里就分析过自造词组句的问题,其实大多数 ...

加加的大师们才是拥护自造词组句。
是不是有会降低智能水平,我看不用争执,就目前来说除了谷歌之外,还有没一个输入法引进了用户词库参与组词得到好评的。

[ 本帖最后由 岳家军 于 2008-7-27 18:24 编辑 ]
作者: 永远的紫光    时间: 2008-7-27 20:39
大家讨论挺激烈的啊
作者: 落寞的湖    时间: 2008-7-27 22:41
智能整句只能是作为一种尝试,把它作为主攻方向,迟早会走入死胡同的。当然我说的是现在,未来不可知!

[ 本帖最后由 落寞的湖 于 2008-7-27 22:46 编辑 ]
作者: 野风    时间: 2008-7-28 12:13
实际上紫光目前的智能水平已经很不错了,我的词库是:bestdata+系统词库+人名+地名+成语,选字的情况就已经很少了!目前用户词库只积累了区区800余条!增长处于极缓慢状态。
作者: lp123sun    时间: 2008-7-28 14:01
谢谢分享

我的用户词库将近7000

下载试用
:-)
作者: lp123sun    时间: 2008-7-28 14:04
请 加强备份的功能

每次恢复后 和以前差得很远

现在来说,备份占用的那点储存空间基本上是九牛一毛

谢谢
作者: 岳家军    时间: 2008-7-29 10:35
呵呵,形势发生了逆转。最小的那个下载量第一了,下载量最小的是中间的。
作者: 野风    时间: 2008-7-29 14:59
咦?最大的下载量怎么不成套啊?这下载了干什么啊?
作者: 岳家军    时间: 2008-7-29 15:30
原帖由 野风 于 2008-7-29 14:59 发表
咦?最大的下载量怎么不成套啊?这下载了干什么啊?

只有一种解释,可能下载一个或两个的时间都很长,心想:太大了,算了吧。就没有下载第二个或者第三个了。
作者: 苗苗老师    时间: 2008-7-29 16:22
大型语言模型库是什么?
作者: 野风    时间: 2008-7-29 16:25
原帖由 苗苗老师 于 2008-7-29 16:22 发表
大型语言模型库是什么?

本版块有这样的帖子,劳驾找一下吧!

看一下这个帖子吧:
http://bbs.unispim.com/forum.php?mod=viewthread&tid=2705

作者: 野风    时间: 2008-7-29 16:27
原帖由 岳家军 于 2008-7-29 15:30 发表

只有一种解释,可能下载一个或两个的时间都很长,心想:太大了,算了吧。就没有下载第二个或者第三个了。

嗯!
作者: 岳家军    时间: 2008-7-31 15:30
总的来说还是最小的下载量大,看来大家还是想兼顾速度啊。
作者: 野风    时间: 2008-8-1 12:01
实际上是多虑了!用bestdata 和gooddata 在我的赛扬1.4 的机器上感觉是完全一样的!语言模型库似乎对机器的配置要求不高的!在这台老机器上用bestdata 和我的配置好的台式机上用,感觉不出什么。
作者: net    时间: 2008-8-3 17:46
原帖由 野风 于 2008-8-1 12:01 发表
实际上是多虑了!用bestdata 和gooddata 在我的赛扬1.4 的机器上感觉是完全一样的!语言模型库似乎对机器的配置要求不高的!在这台老机器上用bestdata 和我的配置好的台式机上用,感觉不出什么。


导入最大的那个模型库后,你先敲几个拼音,然后再按Backspace键来去掉这些拼音看看,是不是又慢又卡?
最小的那个就没有问题,流畅得很。
作者: 岳家军    时间: 2008-8-3 18:16
原帖由 net 于 2008-8-3 17:46 发表


导入最大的那个模型库后,你先敲几个拼音,然后再按Backspace键来去掉这些拼音看看,是不是又慢又卡?
最小的那个就没有问题,流畅得很。

我用五十兆的那个,切换的时候迟滞现象很严重。
作者: 野风    时间: 2008-8-3 21:13
原帖由 net 于 2008-8-3 17:46 发表


导入最大的那个模型库后,你先敲几个拼音,然后再按Backspace键来去掉这些拼音看看,是不是又慢又卡?
最小的那个就没有问题,流畅得很。


不好意思!这样的操作是经常有的,但没有碰到过“又慢又卡”的现象!
作者: 野风    时间: 2008-8-3 21:16
原帖由 岳家军 于 2008-8-3 18:16 发表

我用五十兆的那个,切换的时候迟滞现象很严重。

我用最大的,从“简体中文-美式键盘”切换到紫光,也没有碰到过“卡”的现象啊?真奇怪了?
作者: net    时间: 2008-8-4 16:56
原帖由 野风 于 2008-8-3 21:13 发表


不好意思!这样的操作是经常有的,但没有碰到过“又慢又卡”的现象!  


也许你用的是中文版的XP。
紫光的兼容性一向不怎么样,在英文版的vista和server 2008里,导入大模型库后,使用模糊整句输入时,速度明显变慢,迟滞太严重了。
作者: 野风    时间: 2008-8-4 16:59
原帖由 net 于 2008-8-4 16:56 发表


也许你用的是中文版的XP。
紫光的兼容性一向不怎么样,在英文版的vista和server 2008里,导入大模型库后,使用模糊整句输入时,速度明显变慢,迟滞太严重了。


当然了!我用的就是中文版的winxp+sp3。随便说个个人的小建议:每三个月重装一下系统,会使许多软件能更好的运行。


作者: net    时间: 2008-8-4 17:14
原帖由 野风 于 2008-8-4 16:59 发表


当然了!我用的就是中文版的winxp+sp3。随便说个个人的小建议:每三个月重装一下系统,会使许多软件能更好的运行。



三个月重装一次系统是不可能的,除非你系统里面的软件和数据很少。
要使软件能更好运行,自己可以设置、优化和清理,这并不难,用不着动辄就重装系统。
但紫光一直未能很好地解决兼容和模糊整句输入的问题,这也是无可奈何,和重装系统没关系。
我使用过google和搜狗输入法,它们的兼容性要比紫光好,也没有出现模糊整句输入迟滞的问题;只是我是紫光的老用户了,使用惯了,这个输入法还会一直用下去。
作者: net    时间: 2008-8-4 17:19
再多说一句,现在有不少紫光的用户都转用搜狗了,紫光应该考虑如何设计得更好一点,解决好兼容问题,把这些用户争取回来。
作者: 野风    时间: 2008-8-4 17:36
原帖由 net 于 2008-8-4 17:14 发表



三个月重装一次系统是不可能的,除非你系统里面的软件和数据很少。
要使软件能更好运行,自己可以设置、优化和清理,这并不难,用不着动辄就重装系统。
但紫光一直未能很好地解决兼容和模糊整句输入 ...


呵呵!我安装的软件也不少,但数据类的文件都在C盘以外,重装一次要忙一天。我个人是绝对不超过三个月重装一次系统(个人有这方面的洁癖,呵呵!),而且拒绝克隆。虽然时间花得长一点,但重新安装和没有重新安装的系统的运行效率是绝对不一样的。这只是“玩”系统的的人常常建议的。虽然我看到有许多人在反映兼容性问题,我用到现在除了我之前在论坛反映的一个与“照相机扫描仪向导”冲突外,其余的都没有碰到过,甚至在我的电脑上都基本上无法复现。解释一下,我们这些版主都是“民间”的,条件自然不能与开发组共语。
作者: 岳家军    时间: 2008-8-5 12:32
可能机器不同就不同吧
作者: sanwsw    时间: 2008-8-5 15:51
原帖由 野风 于 2008-8-4 17:36 发表


呵呵!我安装的软件也不少,但数据类的文件都在C盘以外,重装一次要忙一天。我个人是绝对不超过三个月重装一次系统(个人有这方面的洁癖,呵呵!),而且拒绝克隆。虽然时间花得长一点,但重新安装和没有重新安装 ...

  全新安装后,利用专用工具对本机C盘进行备份,需要时克隆恢复,不到10分钟搞定。就是半月一次也无妨,也不累。这样的克隆,我认为与你自己按传统方式全新安装无异。我就是这样的干的。
作者: 野风    时间: 2008-8-5 17:26
原帖由 sanwsw 于 2008-8-5 15:51 发表

  全新安装后,利用专用工具对本机C盘进行备份,需要时克隆恢复,不到10分钟搞定。就是半月一次也无妨,也不累。这样的克隆,我认为与你自己按传统方式全新安装无异。我就是这样的干的。


呵呵!小区别还是有的,比如,我全新安装时,从操作系统开始,每安装一个文件,就整理一次文件碎片,使每个文件相对的集中在一起,有利于硬盘读取速度的提高;而克隆进去,整个克隆文件就是一个文件,即使是整理碎片,也只是这个克隆进去的文件相对集中,若是其中包含了几十个应用程序,可能这些文件本身并没有相对集中在一起。从速度上来说,肯定是我那样安装的要快些,当然这种“快”是很微小的,但也是我所追求的……


作者: ZXD4G    时间: 2008-8-5 17:44
不得不感叹野风兄的洁癖保持之持久,令人发指。

咱以前也是SpeedDsk的爱好者,从norton工具走来的,不过那时的内存少,SmartDrv也就用2M,而现在操作系统的缓存动不动就上百兆,完全不可同日而语,因此,文件碎片的影响更加微乎其微。

据此猜想,这种经常重装系统的习惯,不完全是在追求性能,更多的是在享受过程,就像打麻将或扑克,尤其是打拖拉机的时候,有人就喜欢慢慢地抓牌,看到一张张零碎的牌逐渐凑成拖拉机,甚至壮大为火车之类的豪华猛具,在点点滴滴的对好运的期待和品尝中,获得顶级的自慰效果。
作者: 野风    时间: 2008-8-5 17:52
原帖由 ZXD4G 于 2008-8-5 17:44 发表
不得不感叹野风兄的洁癖保持之持久,令人发指。

咱以前也是SpeedDsk的爱好者,从norton工具走来的,不过那时的内存少,SmartDrv也就用2M,而现在操作系统的缓存动不动就上百兆,完全不可同日而语,因此,文件碎片 ...


呵呵!我还不是最极端的呢!想当初,在远景论坛,有人主张每星期甚至三天,就要如此重装系统一次,曰之:干净重装!呵呵……积习难改啊……
就像当初,我作为音响发烧友时,追求的不是满足于音乐本身的还原,而是要听到乐谱被翻动的声音、小提琴手引弓时,手碰到琴面的声音,歌唱者咽口水的声音……唉!不谈了……
作者: jinyt    时间: 2008-8-6 11:36
谢谢楼主,我已经开始使用大语言模型库,使用速度没问题,虽然一直存在切换到清华紫光拼音输入法时调用库感觉慢,不使用大语言模型库也是一样的,这个大家应该理解,毕竟词库量大,否则,只能组句也不会这么出色,输入过程中是挺棒的!
作者: sanwsw    时间: 2008-8-7 10:00
感谢野风,又下载了一回,方便了许多。
作者: 麦田    时间: 2008-8-7 13:02
问一下,大模型库对内存占用有影响吗
作者: 野风    时间: 2008-8-7 13:11
原帖由 麦田 于 2008-8-7 13:02 发表
问一下,大模型库对内存占用有影响吗


我谈一下我的情况吧,不敢以偏概全。我家有2台台式机,2台手提电脑,公司办公用1台,用最大语言模型库和没有用没感到什么明显区别!这只是我自己的情况!仅供参考!
作者: jinyt    时间: 2008-8-7 13:48
原帖由 野风 于 2008-8-7 13:11 发表


我谈一下我的情况吧,不敢以偏概全。我家有2台台式机,2台手提电脑,公司办公用1台,用最大语言模型库和没有用没感到什么明显区别!这只是我自己的情况!仅供参考!


          我的本本和家里的两台机子也没问题!
作者: chenxiaoao    时间: 2008-8-7 20:03
以前还真没有注意还有这个。
谢谢了。
作者: 野风    时间: 2008-8-13 13:27
现在是最大的下载的人数最多了!
作者: 得闲饮茶    时间: 2008-8-16 18:33
很不错,支持下楼主!!!


作者: 野风    时间: 2008-11-2 20:16
顶一下!有人来找,找不到……
作者: 步虚    时间: 2008-11-2 22:26
“语言模型库”以及它所表现出的智能性绝对是紫光的一大亮点。
作者: zyfu    时间: 2008-11-3 13:01
为什么我没有同名文件?如果用添加的形式却提示“不是有效的词库文件”呢?判指点!
作者: 野风    时间: 2008-11-3 14:32
原帖由 zyfu 于 2008-11-3 13:01 发表
为什么我没有同名文件?如果用添加的形式却提示“不是有效的词库文件”呢?判指点!


请看我一楼的说明。
作者: zyfu    时间: 2008-11-4 12:37
我找遍了wordlib文件夹内的文件也没有找到同名文件,怎么回事?没有同名文件自然不能使用。
作者: 野风    时间: 2008-11-4 16:06
原帖由 zyfu 于 2008-11-4 12:37 发表
我找遍了wordlib文件夹内的文件也没有找到同名文件,怎么回事?没有同名文件自然不能使用。

我不是说了吗?请看本帖一楼的说明,怎样用在那里有详细的说明,一句话、两句话说不清楚,故在此不说了!请看图:




作者: cdrwking    时间: 2008-11-5 10:24
我家里用的也是大模型库,爽啊,和微软的词库有的一拼了^_^,玩魔兽世界打中文不卡的。单位里用的是最小的模型库,单位机器内存小……
作者: cdrwking    时间: 2008-11-5 10:24
版主还有没有紫光的私货共享一下啊?呵呵……
作者: zyfu    时间: 2008-11-5 13:55
谢谢版主,是我自己把文件夹弄错了。已经替换完成。
作者: 野风    时间: 2008-11-5 18:52
原帖由 cdrwking 于 2008-11-5 10:24 发表
我家里用的也是大模型库,爽啊,和微软的词库有的一拼了^_^,玩魔兽世界打中文不卡的。单位里用的是最小的模型库,单位机器内存小……

我的本本CPU是1.4G的,内存是128M 的,硬盘是40G的,现在用着最大的语言模型也没有问题。一开始,首次调出输入法似乎有些卡,重装系统后,就好了。
版主还有没有紫光的私货共享一下啊?呵呵……

呵呵!我也真想再有些“私货”拿出来,以飨大家啊!
作者: 野风    时间: 2008-11-5 18:53
原帖由 zyfu 于 2008-11-5 13:55 发表
谢谢版主,是我自己把文件夹弄错了。已经替换完成。


呵呵!兄弟啊,不必客气!欢迎常来坐坐!
作者: cdrwking    时间: 2008-11-6 09:50
原帖由 野风 于 2008-11-5 18:52 发表

我的本本CPU是1.4G的,内存是128M 的,硬盘是40G的,现在用着最大的语言模型也没有问题。一开始,首次调出输入法似乎有些卡,重装系统后,就好了。

呵呵!我也真想再有些“私货”拿出来,以飨大家啊!



偶单位机器是win2k的,dell机子,P42.8,512M内存,主要是工作窗口太多,常用的最小化窗口的程序就有8~10个,任务栏隐藏的9个……


苦命人啊
作者: sanwsw    时间: 2008-12-14 11:34
建议将本帖也与词语、短语自定义专帖合并,不知能否直接转移下载链接。
作者: 属猫的耗子    时间: 2009-9-27 15:11
其实有很多办法来解决现在看上去是问题的很多问题。
作者: 还是支持紫光    时间: 2009-12-31 00:18
听说有个70M的大语料,想试试,就google到了这个帖子

我知道挖坟是不对的,但是为了让更多人看到还是来顶了。和更强的智能性相比,区区几十M的硬盘占用忽略不计了
作者: soler    时间: 2009-12-31 00:26
其实在置顶帖里面就有链接
作者: 还是支持紫光    时间: 2009-12-31 14:24
试了下,bestdata在我的机器上对上屏速度和切换速度毫无影响  不过紫光一次性可以输入的字数并不多,大语料的作用就相对削弱了
作者: vszhw    时间: 2009-12-31 14:37
我也在用bestdata,反正没感觉到拖慢速度,大点就大点吧,长句(貌似不能多于16字)输入还是很有用的,
作者: ZXD4G    时间: 2009-12-31 14:45
字数限制是16个,也不算太短了,毕竟准确率(或称符合意图率)还刚刚突破70%,对于培养整句输入的习惯来说,能给用户增加一些信心,但鼓舞力度还不够理想,估计85%大概就爽歪了,渐进追求吧。
最佳效果是6~11字,太长了的话,一旦不符,修改不是很方便,放弃总觉得亏得慌。
作者: 还是支持紫光    时间: 2009-12-31 16:52
原帖由 ZXD4G 于 2009-12-31 14:45 发表
字数限制是16个,也不算太短了,毕竟准确率(或称符合意图率)还刚刚突破70%,对于培养整句输入的习惯来说,能给用户增加一些信心,但鼓舞力度还不够理想,估计85%大概就爽歪了,渐进追求吧。
最佳效果是6~11字,太长了的话,一旦不符,修改不是很方便,放弃总觉得亏得慌。

嗯,无论是老的自然码还是现在最红的搜狗、QQ,都有整句快速定位和定位后通过辅助码选字/词的功能。如果85%以上的准确率,再配合上述修改功能,整句输入就真的牛掰了
作者: 野风    时间: 2009-12-31 23:16
呵呵!我也是用这个bestdata的!
作者: lionman    时间: 2010-1-1 16:28
进来支持一下!
感谢野风兄!
作者: 柴子    时间: 2010-1-1 18:16
这么多兄弟都是用的那个最大语料库。。这可叫我好难抉择了。。。换,还是不换,这是一个问题
作者: vszhw    时间: 2010-1-1 19:47
原帖由 柴子 于 2010-1-1 18:16 发表
这么多兄弟都是用的那个最大语料库。。这可叫我好难抉择了。。。换,还是不换,这是一个问题

自己实验一下不就知道了,替换也不麻烦,
作者: kingdick    时间: 2010-1-10 10:29
刚刚用上那个最大的语料库,好像一般的句子都能打出来啊!太厉害了吧!
作者: 声韵拼    时间: 2010-1-10 11:15
整句输入要有使用价值需要有95%的准确率。从目前来看还前途迷茫。需要革命性的突破。需要划时代的输入法来实现。
作者: 野风    时间: 2010-1-10 13:06
原帖由 kingdick 于 2010-1-10 10:29 发表
刚刚用上那个最大的语料库,好像一般的句子都能打出来啊!太厉害了吧!


才刚刚开始用最大的模型文件?
作者: 川邊澤野    时间: 2010-4-26 13:21
其实我一直觉得站在电脑的角度所谓“智能性”有点强人所难。
呵呵,因为现在的输入法并不能普遍录入声调,这让电脑其实要用比我们人类更多的知识来辨识出每一个字究竟是什么,如果没有声调的话,就算恐怕是人也不见得就能把句子全部听懂,更何况是机器呢~
呵呵,只是有点同情机器而已,没别的意思哈~呵呵。
作者: 川邊澤野    时间: 2010-4-26 18:02
那个,我遇个问题,我在替换的时候系统提示“正在使用无法替换”,或者“您所选的动作无法在使用用户映射打开的区域执行”。
请问我该怎么办?

[ 本帖最后由 川邊澤野 于 2010-4-26 18:23 编辑 ]
作者: krsun    时间: 2010-4-26 18:55
首先你不能设置紫光为默认输入法。
然后重启系统,不要切出紫光。替换文件。(保险起见,替换之前先备份)
再切出紫光。OK
作者: 川邊澤野    时间: 2010-4-26 18:57
谢谢。我之采用过你说的办法,唯一的差别是为了省事我没有“重启”而只是“注销”或许是这里不够吧,我马上重启试试~
谢谢。
==============
果然是要重启才行的~
不过……能力上的提升,似乎感受不是特别明显啊~相反倒是感觉有所退步了呢(我用的是大)

不过或许还是需要时间才能显现吧。

多谢版主!

[ 本帖最后由 川邊澤野 于 2010-4-26 19:05 编辑 ]
作者: krsun    时间: 2010-4-26 19:36
客气了
其实我也没有使用最大的而是一直用的默认安装的。^_^
不知道你的输入习惯是什么。
建议培养词组输入的方式,这样才能发挥智能性。(在目前的情况下)
语句的输入方式,中间估计还是需要编辑的,在定位功能还不是很完善的情况下。手感可能还不是很好。
作者: 紫光蓝天    时间: 2011-9-24 08:30
大语言果然名不虚传
作者: sanwsw    时间: 2011-9-24 11:58
你们试着输入:XXXXXzong'he'zheng(XXXXX综合征),出来的结果如何。
作者: 紫光蓝天    时间: 2011-11-5 16:41
综合征和综合症辨析
http://baike.baidu.com/view/745232.htm#3
作者: kingdick    时间: 2011-11-6 21:52
再次支持一下这个好用的东西!
作者: 紫光蓝天    时间: 2011-11-7 12:06
这个东西是语言模型,不会过时
作者: michsun    时间: 2011-11-8 13:34
长期留在硬盘里的,希望下次新版是不是弄几个版本,弄个集成最大那个的。反正现在网速都上去里,也不在乎那点点空间里。何况诸如微软的输入法懂不懂也几十兆里,紫光没必要守着体积,只要适当说明,应该还是会得到支持的。
作者: 紫光蓝天    时间: 2011-11-8 15:10
我赞成新版采用最大的语言模型

[ 本帖最后由 紫光蓝天 于 2011-11-8 15:13 编辑 ]
作者: michsun    时间: 2011-11-8 16:35
其实真的可以发布这样的版本,硬盘都上T了,宽带都要升20M,还在乎几时兆,下载也就说是1到2分钟的事情。
作者: 紫光蓝天    时间: 2011-11-8 18:51
我赞同小麦说的,大家都说要提高准确率,比较而言,肯定是大语言模型准确率最高
作者: 永远的紫光    时间: 2011-11-8 19:36
硬盘倒不在乎,不过加了大语言模型库,上屏速度真的有影响
作者: 永远的紫光    时间: 2011-11-8 19:37
不过新的测试版,上屏速度倒是提高了点了
作者: michsun    时间: 2011-11-9 09:29
原帖由 紫光蓝天 于 2011-11-8 18:51 发表
我赞同小麦说的,大家都说要提高准确率,比较而言,肯定是大语言模型准确率最高


与时俱进,毕竟目前所有版本都是最小号的,个人感觉电脑配置前进了,宽带,硬盘都上去了,用最大的未尝不可啊~
作者: 独钓者    时间: 2011-11-10 07:18
昨天下载的大型

把电脑里的搜狗拼音卸载掉

用起来爽很多
作者: kingdick    时间: 2011-11-10 08:14
保留用户词库没?可以把其它输入法的词库弄到紫光里面,用起来更习惯。
作者: 紫光蓝天    时间: 2011-11-10 08:27
大语言模型准确率可能接近云,好处是不上网也可照常使用

[ 本帖最后由 紫光蓝天 于 2011-11-15 14:59 编辑 ]
作者: kingdick    时间: 2011-11-10 09:08
缺点是根据电脑性能不同,输入法反应速度会有所变慢。还是积累个人词库重要。
作者: michsun    时间: 2011-11-10 09:12
云对新事物有优势,尤其是现在这种瞬息万变的时代,什么事件什么门什么哥什么姐那么云比较有利。而对于一些常用的感觉还是这个比较好,毕竟是经过一定时间积累的产物。

当然随着时代进步,就连操作系统都可能最终变成云的,那输入法是不是该早点跟进呢?
作者: 紫光蓝天    时间: 2011-11-10 09:32
紫光不搞云,甚至取消搜索,不靠输入法盈利。力图打造一个纯净的输入法
作者: michsun    时间: 2011-11-11 10:52
个人觉得不搞云不是不行,但缺乏一定的更新速度始终比不上人家几乎分分秒秒可以推送的词库。

搞云不代表不纯净,如果可以提示正确性,没有云可以,这是一个可有可无的,关键还在于本身的优势。毕竟现在的输入法还是依靠程序和词库本身,云只是辅助。




欢迎光临 华宇拼音输入法论坛 (http://bbs.pinyin.thunisoft.com/) Powered by Discuz! X3.2