在AI机器翻译这条赛道上,国内外的科技巨头都在虎视眈眈,不遗余力地推进深度学习在机器翻译领域的研发和应用。而在这场以语音翻译为突破口的人工智能技术的较量中,中国的互联网公司已经占据了领先地位。
近期获悉,搜狗语音交互技术中心代表搜狗参加了含金量极高的WMT2017国际评测比赛,该中心研发的搜狗神经网络机器翻译(Sogou Neural Machine Translation)系统获得中英/英中翻译的双向冠军。
能够识别语音的机器翻译正在逐渐从实验室走向普罗大众,搜狗语音交互中心技术总监陈伟表示,机器翻译在搜狗输入法上的语音翻译、中译英功能和搜狗同传已经应用,流量已超过200多万。可满足多种移动场景下的实时翻译需求,为用户提供“口袋里的翻译专家”。而作为搜狗人工智能重要布局,未来围绕着语音交互入口,搜狗在更多领域都会有进一步的进展。
搜狗语音翻译技术迈入世界顶尖
每年的第三季度都是机器学习相关的高端学术会议密集召开的时期,今年也不例外。其中,作为自然语言处理领域高端国际会议之一的EMNLP 2017将于今年9月在丹麦首都哥本哈根举行。其中,同期召开的第二届机器翻译大会(WMT 2017)是机器翻译领域的国际高端评测比赛之一。
近年来,几乎所有的研究机构在发表关于机器翻译新方法的论文时,都会以WMT数据集作为实验数据,并以BLEU评分来衡量方法的有效性,给出一个量化的、可比的翻译质量评估,当前WMT数据集已经成为机器翻译领域公认的主流数据集。
从2006年开始到2017年,WMT一共举办了12届机器翻译比赛,每一届的角逐,都代表着全球翻译尖端水准的较量。今年的一大亮点是,WMT首次增设了中文和英文间的新闻数据翻译任务。
因此,此次获得双向冠军的搜狗机器翻译,在比赛中表现出的准确率和速度震动了整个业界。这也意味着中国的语音翻译技术,已经迈入世界最前端的顶尖领域。
在深耕技术的同时,搜狗也在积极推进产品落地,目前机器翻译技术已经成功应用于搜狗同传和搜狗输入法中语音和文本翻译产品中。其中,搜狗同传技术于2016 年11月17日在第三届世界互联网大会上完成首次演示,目前已经在多场重要会议场中使用,支持了数十场机器同传演示,输入法中的语音翻译和文本翻译上线以来日均流量已达200万次。
对于AI技术能够快速在搜狗生态体系中被落地应用,在陈伟看来,有两个方面的原因。陈伟表示,目前AI技术逐渐越来越相通,很多方向可以跟翻译形成很好的交叉,翻译将会被快速地推起来。而另一方的源于搜狗,搜狗在输入法的场景下面,积累了有大量的用户数据,可以快速把数据壁垒做起来,而算法是很难形成壁垒的。
不难看出,搜狗的机器翻译团队在自然语言处理和深度学习方面有非常深厚的积累。系统中用到的许多技巧,追本溯源,都有相应的自然语言处理领域的经典方法,同时也紧跟机器翻译领域的前沿趋势。
因此,搜狗机器翻译团队的获奖代表着搜狗在人工智能方面的最新进展,同样,今年也是搜狗人工智能技术从前沿科技到走向实用的重要一年。
可满足多种移动场景下的实时翻译需求
与谷歌用人工智能做翻译“秀肌肉”的方式不同。搜狗是实实在在希望通过翻译技术把搜索做得更好,将翻译和搜索做出联动,应用到各类场景中,形成差异化竞争优势。
而此前搜狗CEO王小川谈及搜狗AI的未来时也指出,语言上是搜狗最需要做的,因为搜狗主业做输入法和搜索都是和文字信息打交道,而人工智能真正重要的方向是让机器做准确决策。
场景中的语音识别最考验技术的扎实度,用户最关心的也是语音转写准确率。据了解,目前搜狗的语音识别率已达97%,而且在业务层面,搜狗已经接入UTH国际的多语言大数据中心,后者拥有近百亿垂直领域高质量语料句对的大数据积累。
而你可能不知道的是,搜狗正在通过翻译技术,让华语世界与全世界连接。搜狗输入法中“语音翻译”和“文本翻译”两个非常强大的翻译功能,可以帮助你在微信聊天、出国游玩等各种需要英语的场景下,随时随地张口就来,瞬间变身英语达人。
该功能采用了搜狗自研的机器同声传译技术,实现了输入法与机器翻译的完美结合,你只需对着手机说中文就可以实时翻译成英文。而为了保证在各种复杂场景下都能精准翻译转写,搜狗采用了大量的前沿技术,与业内领先的端到端深度神经网络技术深度整合。
业内认为,机器翻译是搜狗重点布局的一个方向,也是一个差异化的优势所在。但搜狗的人工智能并未止步于此,围绕着语音交互入口,搜狗在更多领域都会有进一步的进展。目前搜狗技术落地的产品主要包括搜狗输入法、搜狗同传、搜狗听写等产品。
1本文为《每日经济新闻》原创作品。
2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。