电梯里也能实现清晰语音通话腾讯针对弱网环境主导制定新一代语音编码标准

6月26日，《每日经济新闻》记者获悉，新一代实时语音编码行业标准AVS3P10即将正式发布。这是一项基于AI神经网络等技术的全新行业标准，解决的是弱网环境下的语音通信质量问题。该标准由腾讯提议启动、推进和维护，经AVS（数字音视频编解码技术标准工作组）多家成员单位共同贡献。

过往的音频传输场景中，在有限的带宽条件下，想要将声音高质量传递到接收方，关键在于压缩原始数据、去除冗余信息的语音编码技术。然而，基于EVS、OPUS等现有主流音频编解码标准，当码率降低到10kbps以下时，语音质量下降明显，影响用户体验。这也造成了在电梯、地库、隧道等弱网环境下实时语音通话不畅的难题。

而本次制定的新标准AVS3P10，解决上述痛点的技术路径是：首先通过建立语音信号处理和深度神经网络，捕捉音频的核心特征，实现大幅度压缩、降低传输的数据量；再借助深度学习网络，重建语音信号，恢复出高质量的声音。在保持高清音质的同时，大幅降低了音频传输的带宽需求，让用户在各种场景下都能享受到既清晰又省流量的音频体验。

《每日经济新闻》记者注意到，AI技术此前在实时语音传输领域已有语音增强、回声消除、降噪、变声、语音识别与合成等研究和应用。例如，字节跳动火山引擎流媒体音频团队曾发布包括语音增强、基于AI编解码、回声消除、无监督自适应语音增强等方面的相关研究成果；阿里巴巴钉钉蜂鸣鸟音频实验室提出了一种基于频—时调制谱的改进型窄带滤波网络（STSubNet）和“一模型，多任务”方案，联合消除实时语音通信中常见的三种干扰音（回声，噪音和混响）。

而腾讯上述标准和技术的发布，意味着AI在实时语音传输新增了一个应用场景和技术路径。

值得一提的是，这一标准以腾讯首款神经网络语音编解码器Penguins为原型，该技术在2021年起逐步落地到腾讯会议车载模式、弱网模式、QQ语音通话等多个产品场景中。那么，为何腾讯会选择推动一项自研技术成为行业标准，并把关键核心技术开放出来？

在6月26日的媒体群访中，腾讯云副总裁、腾讯会议天籁实验室主任商世东回应记者称：“这一标准的制定和技术的开放，能推动整个实时语音通信行业为用户提供更好的技术和产品。”商世东认为，腾讯不怕开放技术，因为技术在具体产品里面怎么使用，以及怎么做到效果和体验最好，取决于很多技术开发细节，这不是拿到开放的源代码就能轻易做到的。“对于同行来说，他们看到这个技术的领先性后，最快在市场上推出产品的方法就是和腾讯一起合作，实现一加一大于二的效果。”他表示。

腾讯标准化高级工程师张亚军认为：“标准化是行业达成共识的形式和方法，也能解决产品设备互联互通的问题。制定标准的过程需要产业链上的各个厂商都加入讨论，比如芯片厂商、终端厂商、互联网APP厂商。并不是说某一家企业技术足够厉害，它就可以吃得下整个‘蛋糕’。标准化可以让大家一起做大‘蛋糕’，一起来推动我们行业的发展。”他还表示，另一方面，虽然标准是开放的，但标准里的技术方案是有相应的专利和IP保护的，因此开放对于腾讯来说并没有太大顾虑。

封面图片来源：视觉中国

电梯里也能实现清晰语音通话腾讯针对弱网环境主导制定新一代语音编码标准

关联专题

版权声明

电梯里也能实现清晰语音通话 腾讯针对弱网环境主导制定新一代语音编码标准

关联专题

版权声明

电梯里也能实现清晰语音通话腾讯针对弱网环境主导制定新一代语音编码标准