腾讯新一代实时语音编码行业标准即将正式发布 2G也能流畅通话

【太平洋科技快讯】近日，腾讯宣布，该公司主导的新一代实时语音编码行业标准 AVS3P10 已完成定稿，即将正式对外发布。这一标准采用了腾讯会议首款自研神经网络语音编解码器 Penguins AI 语音引擎为原型，可提升弱网环境下的通话质量，成为全球首个系统性引入人工智能并实现低码率下高质量语音编码标准的成果。

AVS3P10 标准采纳了腾讯侧方案，通过这一方案，可以在仅需 1/3 的编码码率的情况下，实现和现有主流标准同等清晰的音质，即使在网络卡如 2G 的环境下，也能顺畅地召开会议。这一标准由腾讯提议启动、推进和维护，经过 AVS 音频组多家成员单位共同贡献。

在有限的带宽条件下，将声音高质量地传递到接收方，压缩原始数据、去除冗余信息的语音编码技术是其中关键。然而，基于 EVS、OPUS 等现有主流音频编解码标准，当码率降低到 10kbps 以下时，语音质量会明显下降，影响用户体验。为了应对这一挑战，腾讯会议天籁实验室联合腾讯 AI Lab 自研了腾讯首款神经网络语音编解码器 Penguins。

Penguins 将 AI 与传统技术融合，打破了传统香农定律的性能极限。通过 AI 语音信号建模，提取最核心的特征参数编码，再借助深度学习网络，预测并重建语音中的细微结构，最终生成逼真的音频波形。在多方测试中，腾讯提交的 AVS3P10 标准实现了 6kbps 下的高质量语音通信，即使在“2G”网络下也能实现清晰通话，且主观质量非常接近原始参考信号，媲美国际主流的 OPUS 标准在 20kbps 的质量。

这一成果将对在线上会议、语音通话等实时音频场景产生深远影响。在电梯、地库、隧道等网络较差的环境下，用户也能享受清晰流畅的语音通话服务，大大降低了带宽要求。这意味着在未来的在线会议、语音聊天等场景中，用户将不再受到网络条件的限制，能够更自由地交流和协作。

此外，AVS3P10 标准的发布还将推动语音编码技术的发展，为通信、音频编解码、语音识别等领域的创新提供新的动力。随着人工智能技术的不断发展，未来我们有望看到更多基于人工智能的语音编码标准问世，为音频处理领域带来更多可能性。