人工智能黎明将至？继谷歌后百度开放四项语音技术接口

每经记者赵娜

日前，百度宣布在其语音开放平台上线三周年之际，向公众开放四项全新语音技术接口，分别是情感合成、远场方案、唤醒二期技术和长语音。

《每日经济新闻》记者注意到，作为人工智能的主要技术及应用之一，语音识别是国内外科技公司都在耕耘的方向。百度公司首席科学家吴恩达甚至形容称，“我们已经站在人工智能的黎明。”

早些时候，谷歌于今年3月宣布开放其语音识别API（应用程序编程接口）。

据了解，百度语音开放平台日前宣布对外开放的四项技术，也可以理解为输出解决方案，包括情感合成、远场方案、唤醒二期技术和长语音四种。

“这些技术有很大的潜力，去彻底改变人机交互的效率和办法。未来语音技术在很多应用场景有很好的机会，将为人机交互带来巨大的改变。”吴恩达表示，这些技术旨在解决用户在使用语音交互的场合时，普遍感到困扰的一些关键问题。例如，百度情感合成技术主要聚焦在为合成语音“加入情感”，目前可达到接近真人发声效果。类似地，开发者还可以利用新的接口，使语音识别距离增加到3米到5米，将设备的语音唤醒率提升到95%以上，同时更省电、误报更少，或提升长时间语音识别的准确率问题。这将为语音技术带来远比现在更多的想象空间，而不只是遥控电视或解锁手机。

公开资料显示，百度语音识别准确率已达97%。百度语音开放平台自2013年10月上线以来，开发者数量超过14万。

斯坦福大学人工智能专家James Landay提到，“近两年，受益于大数据和深度学习技术的不断发展，语音识别技术突飞猛进，速度及准确性都有了长足进步。”

值得注意的是，作为人工智能的主要技术及应用之一，语音识别是国内外科技公司都在耕耘的方向，包括苹果、微软、谷歌、百度、腾讯、科大讯飞和搜狗等多家公司都在这一领域发力。

“我们已经站在人工智能的黎明。”11月22日下午，吴恩达在接受包括《每日经济新闻》在内的媒体采访时称，语音识别的门槛很高，除了技术复杂，数据门槛也非常高。现阶段，最难的仍是核心技术研发，如识别率提升、大数据语音合成等。百度希望通过开放相关技术，让智能应用更易被开发。

另一方面，今年3月，谷歌在其Next云计算大会上发布面向开发者的新机器学习平台的同时，宣布开放语音识别API，即谷歌语音搜索和语音输入的支持技术。

记者留意到，Google Cloud SPeech API包括了80多种语言，适用于各种实时语音识别与翻译应用。9月下旬，外媒报道称，谷歌宣布将收购智能语音识别工具开发商API.ai，预计会整合后者的自然语言理解技术。

而就在上周的第三届世界互联网大会上，王小川在演讲中现场演示了实时语音识别和翻译的能力，并提到，搜索的未来就是问答机器人，随着技术的突破，搜索引擎会自然而然演化成为问答引擎。但他也直言，尽管人工智能最重要的突破领域是在语音和图像领域，但在文字领域的进展仍较缓慢。比如，在安静的环境下，搜狗的语音识别准确度已经到了95%甚至97%，但一旦有噪音，准确率会迅速下降。

人工智能黎明将至？继谷歌后百度开放四项语音技术接口

关联专题

版权声明