Google Duo 正在测试一种新的编解码器,提供更好的通话质量
Lyra是新的编解码器,正在正在接受数70多种语言、数千小时音频的培训
最近更新时间 2021-03-02 14:55:57
世界可能正在为5G做准备,但实际上,绝大多数人仍在以缓慢的数据速度和较差的连接性来应对。为了解决这个问题,Google Duo正在使用压缩技术来帮助通过不良/杂乱的连接提供最佳的音频和视频体验。
Google正在测试一种新的音频编解码器,该编解码器可通过不良的网络连接显着提高音频质量。 Google AI小组在详细的博客文章中介绍了一种低比特率的语音编解码器“ Lyra”。 Lyra的基本架构涉及“以对数梅尔频谱图的形式提取独特的语音属性(特征)”。然后将它们压缩并通过网络传输,然后使用生成模型在另一端重新创建。
到目前为止,这也是传统的参数编解码器所做的。但是,Lyra使用了一种新的高质量音频生成模型,该模型可以从语音中提取关键参数,并且还可以使用最少的数据量来重建语音。
Lyra中使用的新的生成模型基于Google在WaveNetEQ上的较早工作,WaveNetEQ是目前在Google Duo上使用的“基于生成模型的丢包隐藏系统”。
谷歌解释说,这种方法使Lyra“与许多流媒体和通信平台中使用的最新波形编解码器相提并论”。正如Google所说,Lyra与其他编解码器相比的好处在于,Lyra不会逐个样本地发送信号,因为信号需要更高的比特率,因此需要更多的数据。
Lyra使用“低价循环生成模型”,该模型以较低的速率工作,但会并行生成不同频率的多个信号,这些信号随后组合为“所需采样率的单个输出信号”。
在中档设备上运行这样的生成模型“可产生90ms的处理延迟”,Google表示这与其他传统语音编解码器是一致的。
谷歌还补充说,Lyra可以以非常低的比特率胜过Speex,MELP和AMR等编解码器,还可以胜过Opus等免版税的开源编解码器。
谷歌说,Lyra正在接受培训,“使用开源音频库,用70多种语言的演讲者提供数千小时的音频,然后通过专家和众包听众来验证音频质量”。而且新的编解码器已经在Google Duo上推出。 Lyra目前用于语音用例,但Google也在探索如何将其用作通用音频编解码器。