华宇拼音输入法论坛

标题: 请教:可以自己编辑语言模型文件bigram.dat文件吗? [打印本页]

作者: wang2lang    时间: 2009-12-31 11:30
标题: 请教:可以自己编辑语言模型文件bigram.dat文件吗?
请教:可以自己编辑语言模型文件bigram.dat文件吗?

比如,将自己习惯和使用最频繁的专业词库中的词条加入到bigram.dat文件中。
当然,要剔除与原bigram.dat文件中重复的词条。
可以吗?

如果可行,是不是可以不必再加载自己的专业词库了?
如果可行,是不是智能组词将更符合自己的输入习惯?

很期待开发组给个明确答复!
作者: ZXD4G    时间: 2009-12-31 11:49
抱歉,楼上的bigram.dat本质了解不够到位,它不是个“库”,不是字、词的集合,而是字与字、字与词、词与词之间关系(在文字表述中挨在一起的频度,转化为概率)的集合,无法以文本方式进行编辑。
对bigram.dat进行扩充,绝不是简简单单地增加一些字词进去,而是要在海量语料中把这些字词与其它字词的关系统计出来,这个工作可不是用户能做的。
作者: michsun    时间: 2009-12-31 13:19
难得看到4G的发言啊!
作者: kingdick    时间: 2009-12-31 20:54
四哥长期忙于基础资料整理,少有闲工夫上论坛;现在频频出现,说明工程进展顺利。




欢迎光临 华宇拼音输入法论坛 (http://bbs.pinyin.thunisoft.com/) Powered by Discuz! X3.2