每经记者 王帆 每经编辑 文多
6月26日,《每日经济新闻》记者获悉,新一代实时语音编码行业标准AVS3P10即将正式发布。这是一项基于AI神经网络等技术的全新行业标准,解决的是弱网环境下的语音通信质量问题。该标准由腾讯提议启动、推进和维护,经AVS(数字音视频编解码技术标准工作组)多家成员单位共同贡献。
过往的音频传输场景中,在有限的带宽条件下,想要将声音高质量传递到接收方,关键在于压缩原始数据、去除冗余信息的语音编码技术。然而,基于EVS、OPUS等现有主流音频编解码标准,当码率降低到10kbps以下时,语音质量下降明显,影响用户体验。这也造成了在电梯、地库、隧道等弱网环境下实时语音通话不畅的难题。
而本次制定的新标准AVS3P10,解决上述痛点的技术路径是:首先通过建立语音信号处理和深度神经网络,捕捉音频的核心特征,实现大幅度压缩、降低传输的数据量;再借助深度学习网络,重建语音信号,恢复出高质量的声音。在保持高清音质的同时,大幅降低了音频传输的带宽需求,让用户在各种场景下都能享受到既清晰又省流量的音频体验。
《每日经济新闻》记者注意到,AI技术此前在实时语音传输领域已有语音增强、回声消除、降噪、变声、语音识别与合成等研究和应用。例如,字节跳动火山引擎流媒体音频团队曾发布包括语音增强、基于AI编解码、回声消除、无监督自适应语音增强等方面的相关研究成果;阿里巴巴钉钉蜂鸣鸟音频实验室提出了一种基于频—时调制谱的改进型窄带滤波网络(STSubNet)和“一模型,多任务”方案,联合消除实时语音通信中常见的三种干扰音(回声,噪音和混响)。
而腾讯上述标准和技术的发布,意味着AI在实时语音传输新增了一个应用场景和技术路径。
值得一提的是,这一标准以腾讯首款神经网络语音编解码器Penguins为原型,该技术在2021年起逐步落地到腾讯会议车载模式、弱网模式、QQ语音通话等多个产品场景中。那么,为何腾讯会选择推动一项自研技术成为行业标准,并把关键核心技术开放出来?
在6月26日的媒体群访中,腾讯云副总裁、腾讯会议天籁实验室主任商世东回应记者称:“这一标准的制定和技术的开放,能推动整个实时语音通信行业为用户提供更好的技术和产品。”商世东认为,腾讯不怕开放技术,因为技术在具体产品里面怎么使用,以及怎么做到效果和体验最好,取决于很多技术开发细节,这不是拿到开放的源代码就能轻易做到的。“对于同行来说,他们看到这个技术的领先性后,最快在市场上推出产品的方法就是和腾讯一起合作,实现一加一大于二的效果。”他表示。
腾讯标准化高级工程师张亚军认为:“标准化是行业达成共识的形式和方法,也能解决产品设备互联互通的问题。制定标准的过程需要产业链上的各个厂商都加入讨论,比如芯片厂商、终端厂商、互联网APP厂商。并不是说某一家企业技术足够厉害,它就可以吃得下整个‘蛋糕’。标准化可以让大家一起做大‘蛋糕’,一起来推动我们行业的发展。”他还表示,另一方面,虽然标准是开放的,但标准里的技术方案是有相应的专利和IP保护的,因此开放对于腾讯来说并没有太大顾虑。
封面图片来源:视觉中国
1本文为《每日经济新闻》原创作品。
2 未经《每日经济新闻》授权,不得以任何方式加以使用,包括但不限于转载、摘编、复制或建立镜像等,违者必究。