|
|
刚才加加论坛上发现张文焕开发的“大分词”小软件,绿色软件,无须安装。本人添加一篇例文,该例文中内容为刚才从人民网下载的党政公文十来篇的简单汇总;“fc.txt”为该例文分词后删除重复词的结果。所有文本文档切分后保存结果的文件名均为“fc.txt”。
作用:给成篇文本进行按“词”切分,为专业词汇积累、词库制作提供基础语料
试用提醒:
①如你想积累某一专业领域的惯用词汇,可下载尝试;
②须结合EmEditor等其它文本处理软件删除重复词条
③毕竟是小软件,其切分效果不可能绝对准确;
④现代汉语经典著作切分准确率会高一些。 |
|