华宇拼音输入法论坛

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
查看: 8068|回复: 3
打印 上一主题 下一主题

破译输入密码

[复制链接]
跳转到指定楼层
1
发表于 2012-11-10 17:02:41 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 kingdick 于 2012-11-10 17:07 编辑

破译输入密码
原文发表于《新电脑》杂志2012年10月刊





  一直以来,智能型中文输入法基本上单纯地依靠汉语的语言模型来实现拼音到汉字的转换。直到开发人员意识到其实输入法与机器翻译的原理如出一辙,最终比拼的都是基于大规模实时数据的自然语言处理技术。


   以前,输入法技术比拼的主要是词库的大小和流行度。可以说借助互联网搜索引擎了解词语的流行度,然后增强词库的方法,让中文输入的效率有了显而易见的提高。但也不难发现,目前的中文输入法整句输入效率还处于比较低的水平,破译整句输入的密码需要更高级别的自然语言处理技术。


   微软亚洲研究院将机器翻译中用到的自然语言处理技术运用到中文输入法领域,经过1年左右的研发,搭建了可灵活扩展的新一代云输入系统,低调地开启了“云输入2.0”时代。上一期,我们介绍过微软英库拼音输入法的第一个公开测试版本,了解到它的基本输入命中率之高和产品功能上的独家秘籍。本期,我们将进一步揭开这款云输入法的后窗,看看它究竟是如何做到脱胎换骨的。

     机器学习的内核


   负责“英库拼音”底层技术开发的是微软亚洲研究院的自然语言计算研究组,他们的另一项研究成果是非常受用户欢迎的必应词典。而必应词典实现的机器翻译功能,主要使用了自然语言处理研究中的基于“多特征融合的对数线性模型”,这种方法同样采用大规模的训练语料(corpus)对模型的参数进行自动学习。在做输入法的过程中,开发人员意识到其实输入法也是一种“翻译”,只不过是从拼音“翻译”为汉字,而基于统计机器翻译的方法能够很好地为更丰富的用户输入行为进行建模。利用已经得到证明的、基于“多特征融合的对数线性模型”的机器学习技术,英库拼音开始了破译中文词语和整句输入密码的征程。


   在互联网还不够普及的时期,中文输入法的训练语料主要来自于报纸、杂志和词典等公开出版物,数据量比较小,训练出的语言模型更接近“书面语”。1年的《人民日报》文本量大概为200MB,而如今仅微博上不到1个月的文本量就超过1GB。为了了解最新的中文语言动态,英库拼音输入法的训练语料库不仅包含来自必应搜索引擎的数据,而且拥有独立的“爬虫”进行全天候的工作,集合了来自微博、博客、论坛、新闻和小说等渠道的大规模实时数据。拿到这些数据之后,他们利用微软先进的云计算服务器,自动学习语言模型的参数。举个简单的例子,输入“ni’xian’zai’gan’shen’me”,得到的每个字都有很多候选,如果要获得“你现在干什么”的最优选项,首先要利用基本的语法规则进行分词,然后就需要知道“你”后面出现“现在”的概率要比“先在、西安再”高,而“现在”后面出现“干”字的概率要比“感、敢、赶”字高,以此类推。当然,这只是机器通过语料库学习语言模型参数的基本原理,真实情况下考虑的因素要复杂得多。据微软亚洲研究院自然语言组主管研究员李沐博士介绍,“通过基于云计算的大数据模型,该系统成功地将中文转换错误率降低了25%,取得了初步成功。”






   另外,这套机器学习的系统还有一项重要的功能,那就是从实时的大数据里面发现新知识。比如说“甄嬛体”是4月28号左右开始在微博上“冒”出来的,最初两天使用频率不高,但是到了5月1号,英库拼音输入法的后台就成功地发现大家都在用这个词,所以系统已经成功地把它加入到英库拼音输入法的词库中,直接就可以打出“甄嬛体”了。


   事实上,这些方法并非最新概念。由于越来越多的用户参与到互联网内容的生成活动中,产生了大规模的实时动态数据,而且随着云计算能力的不断提高,机器学习算法才逐渐被引入到自然语言处理技术中,从而将中文输入法带入了又一个黄金年代。可以说,这是让大数据研究和云计算技术“落地”的绝佳范例。

     重视用户的体验


   这些年来,随着互联网不断深入人们的生活,用户的输入需求发生了明显的变化。首先,大量英文词汇渐渐融入汉语,除了口语中夹带的英文单词外,最常用到的莫过于一些知名商标和缩写词,例如HTML、Kinect、iPhone以及SIM卡、Beta版、UI等;然后,聊天打字变得越来越不拘一格,各种误拼写变成了家常便饭;最后,像“伤不起、甄嬛体和你懂的”这样的新词汇层出不穷。


   英库拼音考虑到了上述情况,在机器学习系统中,分别加入了中英文混输、误拼写容错和新词汇识别等子模型,快速地完善和补充最终的拼音-汉字转换模型。与这种动态语言模型配套的监测系统,会跟踪查看加入新的子模型之后,用户的输入命中率是否得到了提高,然后根据反馈的数据,不断地进行修正。另外,英库拼音的云端和客户端基本语言模型是一致的,只是云端的模型更完善、词库更大。如果本地候选项的“置信度”不高,在联网情况下它就会请求“云候选项”。最终,使用户即时获得更好的输入体验。


   众所周知,微软并不缺中文输入法,比较早的“智能ABC”和后来的“微软拼音”都是操作系统内置的输入法,但是由于更新缓慢,而且表现不佳,它们渐渐被一些互联网公司的输入法产品抢去了市场。潜心修炼1年后,英库拼音输入法携从机器翻译领域演化而来的中文云输入引擎而出现。与微软的传统商业软件开发模式不同,英库拼音输入法也是微软这艘巨型战舰向互联网产品开发模式转型的一个缩影,它不仅迅速将理念和技术转化为产品和解决方案,而且通过敏捷开发的模式,不断根据用户的真实需求和使用反馈来改进云输入系统,使产品快速迭代,几乎每隔一个月就推出一个新客户端版本。

     结论


   如果论功能是否丰富,那么初出茅庐的英库拼音输入法与当前市场上的主流产品还有一点差距。但是微软对于未来技术的发展方向有着明确的愿景,现在对英库拼音输入法项目的投入将带来巨大的技术和市场回报。第一,利用输入法“反哺”必应词典和必应搜索引擎,在技术上绝非戏言。第二,免费输入法并非无利可图。如果想了解用户的个性化行为,最直接的媒介就是输入法。在大数据和云计算竞争的年代,这是微软拿下的又一个战略高地。而用户得到的是一款更优秀的中文输入法,而且它是干净的,不必忍受各种弹窗等“流氓”行为。

2
发表于 2012-11-11 06:52:41 | 只看该作者
“不必忍受各种弹窗”等流氓行为,呵呵,矛头直指××输入法啊!
3
发表于 2012-11-11 10:20:12 | 只看该作者
尽管没用英库,但读kingdick版的文章却增长了见识呵呵!
4
发表于 2012-11-11 11:33:50 | 只看该作者
关注中..........
您需要登录后才可以回帖 登录 | 注册

本版积分规则

小黑屋|手机版|Archiver|华宇拼音输入法网站  

GMT+8, 2025-12-24 02:54

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表