每日经济新闻

    搜狗云输入的“脑容量”:200亿本《新华字典》

    2010-07-20 01:11
    “敲入mantiandaxue,出来的正是  ‘漫天大雪’,为什么不是‘满天大雪’,或者‘漫天大学’?”网民小姚在网上提出了这样的问题。

            小姚不知道的是,输入法如此“善解人意”的背后,决定性因素是一种名为“语料”的东西。日前,搜狗输入法宣布,其语料库容量已超1TB,是其他中文输入法的数十倍,对于韩文、日文等语系,这更是“天文数字”。

    “享受输入”之谜

            小姚是搜狗输入法的忠实粉丝,“平时用习惯了倒没觉得什么,一次重装系统无法上网,只用系统自带的智能ABC,那种感觉太痛苦了,一夜回到了解放前。”

            在中国上网的计算机中,有80%安装了搜狗,他们与小姚一样,已经习惯了“享受输入”。

            “语料”正是重要的幕后功臣之一。据搜狗输入法工程师介绍,很多人都知道“词库”,词库越大,则输入法越聪明,不过“语料库”的重要性有过之而无不及,它决定了词库中词汇的组合,并且决定了哪一个词被排在输入结果的最前面。

            一般来说,语料库越大,则输入效率越高。据统计,目前多数输入法语料库大约在40GB~150GB,搜狗输入法的1TB,即约1000GB,多出数十倍。如此庞大的信息量相当于200亿本  《新华字典》收录的字数。

    搜狗的自我挑战

    虽然已远比对手“聪明”,但搜狗还在“自己跟自己较劲”。按照搜狗语料库目前的容量,它的输入准确率可以接近90%,而其他输入法只有50%~80%,但当这个容量再扩大,它对输入效率的提升将越来越难。

            对此,搜狗做了两方面的工作,力图让语料库爆炸增长:其一,发挥“人肉”的优势,让用户贡献;其二,通过搜索引擎抓取互联网上的词汇。

            显然,围绕“语料”,搜狗已率先找到了一条可让其无限、爆炸增长的路,这也是过去几年里,它能引领输入体验潮流,不断推高文字录入效率水准的原因。

    中文输入的未来

            回首输入法的发展历程,它已从过去的“单机软件”变成了今天来自云端的“互联网服务”,集搜索引擎、大规模数据处理、自然语言处理、大规模网络并发处理等多项技术于一身。

            业内人士指出,搜狗对文字输入的最大贡献在于,它既给出了输入法的宏观方向,又形成了自己体系化的方法论。

            在未来,语料库、词库会以更快的速度爆炸增长,通过对人类思考的模拟,输入法会更理解用户的思维和意图,让“享受输入”越来越成为必然。这显然是一件极富使命感的任务,数据显示,每天有3亿人依赖搜狗录入文字,不难想象,搜狗输入法每将准确率提升1%,将为国人的学习、工作、娱乐节省无数时间和精力成本,从而为整个社会创造无穷的社会价值和经济价值。  (董晖)



    如需转载请与《每日经济新闻》报社联系。未经《每日经济新闻》报社授权,严禁转载或镜像,违者必究。

    联系电话:021-60900099转688

    每经订报电话

    北京:010-58528501        上海:021-61283003        深圳:0755-83520159        成都:028-86516389        028-86740011        无锡:15152247316

    上一篇

    申银万国逆势重仓权重股 自营亏损超2亿

    下一篇

    诺西12亿美元购摩托罗拉无线业务



    分享成功
    每日经济新闻客户端
    一款点开就不想离开的财经APP 免费下载体验