什么是音频带宽
音频带宽是指会议电话的音响装置能够处理或通过的一段频率范围。比如,音响的环绕声道的带宽是100Hz-7kHz,表明环绕声道只通过频率在100Hz(低音)和7kHz(高音的低段)之间的频率。人耳能听到的频率范围为20Hz-20kHz,但大部分有用的和可理解的信息的频率在200Hz到3500Hz之间。所以会议电话的音频带宽与此相对应,也是200Hz到3500Hz之间。
音频带宽用于描述组成复合信号的频率范围。音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好。
音频带宽的限制
由于某些特性(例如噪声和总失真)和音频带宽有关,因此只有将解调信号占有的音频频段加以限制,才能获得重复的输出结果。
限制音频带宽可以通过在音频测量设备之前接入限制频带的滤波器来实现。该滤波器可以加在测量设备内;在测量剩余哼声和噪声时,则只用低通滤波器。
接入的音频测量设备(包括滤波器)其输入阻抗不要影响接收机的输出负载条件。
音频带宽的扩展
1.非盲目式高频重建方法
目前,非盲目式高频重建法主要包括频带复制(Spectral Band Replication,SBR)法、简化参数的带宽扩展(Simplified Parameters Bandwidth Extension,SPBE)法、PlusV高频重建法、Bark带频谱建模(Bark Band Spectrum Modeling,BBSM) 、基于BBSM的简化参数高频重建和基于最小熵的音频信号高频重建法。
1.2频带复制(SBR)法
在编码端,SBR方法首先借助正交镜像滤波器(Quadrature Mirror Filter,QMF)将输入信号划分为64个子带,并定义前32个子带包含低频信息,后32个子带包含高频信息。其次,对各高频子带进行谐波和噪声属性分析,最后将高频各子带的谐波和噪声属性及能量包络参数随同低频信息参数一同写入码流。
在解码端,首先借助QMF,将解码后的低频时域信号分为32个子带;其次,将各低频子带信息复制到各高频子带;最后,根据解码后高频各子带的谐波和噪声属性及能量包络恢复高频各子带信息,即若某一高频子带为谐波属性,则用正弦发生器生成该频带的时域信号;若该频带为噪声属性,则由白噪声生成器生成该频带的时域信号。
通过上述原理介绍我们可以看出,SBR方法的主要优点是直接将低频子带的信息复制到高频子带,并借助高频子带的谐波和噪声属性及能量包络重建高频信息。但其缺点是需对原始音频信号进行分带处理,并提取高频子带的诸多参数,这使得复杂度和加入比特流的参数信息量很大。
1.2 简化参数的带宽扩展(SPBE)法
在编码端,SPBE方法首先对输入音频信号进行修正的离散余弦变换(Modified Discrete Cosine Trans.form,MDCT),将得到的一组MDCT系数等分到N个子带中,并定义前N/2个子带包含低频信息,后N/2个子带包含高频信息;其次,利用各子带中的MDCT系数计算各低频子带与各高频子带的相关系数及各高频子带能量;最后,将各高频子带的能量参数、高低频子带相关系数随同低频MDCT系数一同写入码流。
在解码端,首先将解码后的低频时域信号分为N/2个子带;其次,根据高低频子带相关系数,判断是否存在与高频子带相关的低频子带,如果有,则将对应的低频子带信息复制到对应的高频子带;如果没有,则将对应的高频子带填充随机白噪声;最后,利用高频子带能量信息调整时域幅度,完成高频重建。
通过上述的原理可以看出,SPBE方法与SBR相比,避免了分带处理,而是利用MDCT建立起的高低频子带相关性及高频子带能量进行低频子带信息复制或噪声填充来实现高频信息重建,该方法具有复杂度低和边信息少的优势。
1.3 PlusV高频重建法
在编码端,首先将输入音频信号的有效带宽一分为二,并将高频带等分为N个子带。然后依次检测各高频子带是否存在类正弦峰值,如果存在,则记录该峰值的能量及对应频率。接下来则去除各高频子带的类正弦峰值,使各高频带只剩下类噪声成分,并分别计算每个高频子带的类噪声能量。最后,将类正弦峰值的能量与其对应的频率及高频各子带类噪声能量参数随同低频信息参数一同写入码流。
在解码端,首先将高频带等分为N个子带,然后用白噪声填充各高频子带,并用解码的高频各子带类噪声能量调整备子带能量。最后,利用解码的类正弦峰值的能量及其所对应的频率,在各高频子带加入正弦峰值,完成最终的高频信息重建。
通过上述原理分析可以看出,PlusV方法利用了音频信号的高频信息由噪声和类正弦信号混合组成的特点。该方法主要以噪声来填充高频带,这对于高频带以噪声为主要成分的信号而言,高频重建效果较好,人耳很难听出解码信号与输入信号的差别。但是由于其重建所得的高频频谱并不精细,对于谐波成分多、噪声成分少的音频信号而言,难免会引入人工噪声,人耳对此噪声会有所感知,造成音频质量下降。
1.4 Bark带频谱建模(BBSM)法
在编码端,首先对输入音频信号进行FFT变换,并计算高频带与本地解码的低频带信息之间的相关系数;其次,将输人信号的高频幅度谱与本地解码的低频幅度谱分别按Bark尺度进行子带划分,并将高频Bark子带分为N个组,低频前M个Bark子带归为一个组,这里N应是的M倍数。最后,计算各高频子带组与低频子带组的能量比随同低频信息参数一同写入码流。
在解码端,首先对低频解码信息进行采样,并利用Bark尺度进行子带划分;其次,根据解码的相关系数进行高低频相关性判断,当相关系数小于给定阈值时,用随机白噪声填充高频各Bark子带;反之,将解码的前M个低频Bark子带信息复制到各高频子带组;最后,根据解码的高频子带组与低频子带组的能量比,对高频Bark子带的能量进行调整,完成最终的高频重建。
通过上述原理分析可以看出,BBSM方法借助Bark尺度进行非均匀分带,使得子带宽度呈指数增长,避免了前面3种方法对频带进行均匀划分的缺陷,有效减少了分带数目及表示高频信息的参数。但是,由于该方法使用一组相同的Bark带低频信息去重建各组Bark带高频信息,并没有使用与高频子带相关性最大的低频子带去重建高频信息,因此得到的不是最佳的重构信息。
1.5 基于BBSM 的简化参数高频重建方法
在编码端,首先将输人信号等分为N个子带;其次,根据子带能量差异和过零率,对相邻两帧信号相同低频子带进行相关性判断,并提取相关性最强的M个低频子带,作为高频重建单元;接着,比较相邻两帧高频各子带的能量差异,只有当差异值大于给定门限时,才传递高、低频子带能量比;最终将提取的M个低频子带的索引值、高频子带的能量差异与高、低频子带能量比参数随同低频信息参数一同写入码流。
在解码端,首先,将解码的低频信号等分为N/2个子带;其次,利用相邻两帧高频各子带的能量差异进行频带复制判断,当差异值大于给定门限时,则将M个低频子带复制到高频带,并利用高、低频子带能量比对其进行能量调整得到高频信息;反之,则填充随机白噪声得到高频信息。
通过上述原理分析可以看出,此方法避免了BBSM中使用固定的低频信息重建高频信息的缺陷,通过选择相关性最好的低频子带对高频带进行重建,进一步减少了表示高频的参数,有利于提升重建质量。
1.6 基于最小熵的音频信号高频重建法
在编码端,输入音频信号经FFT变换后被等分为N个子带,将提取的高频各子带的包络能量信息随同低频信息参数一同写人码流。
在解码端,将信号等分为,N个子带,低频解码信息填人对应的低频子带,高频子带均赋为零值,同时加入直流信息,构成一个全频带信号。经IFFT变换后,得到时域信号。将此时域信号作为初始全频带信号,结合高频包络能量信息,用最小熵算法循环迭代不断得到新的全频带信号。每次恢复出全频带信号后,都将其与初始全频带信号做相关性检测,当相关系数小于某个门限值时,迭代停止,此时恢复的全频带信号即为解码信号。
通过上述原理分析可以看出,该方法利用了最小熵准则来对低频信息进行谱外推得到高频信息,其核心思想是利用信息熵来度量信号的频谱分辨率,通过求取最小信息熵来提高信号的频谱分辨率,使得外推得到的高频谱信息更加准确。其重建音频信号的高频谱信息更加丰富,从而使得重建信号更加饱满自然。但是,由于本方法没有对高频细节谱进行精确恢复,当处理高频能量较强的信号时,难免会引入轻微的噪声。
2.盲目式高频重建方法
目前,盲目式高频重建法主要包括线性外推(Linear Extrapolation,LE)、有效高频带宽扩展(Effi-cient High-frequency Bandwidth Extension,EHBE)、混合信号外推(Hybrid Signal Extrapolation,HSE)和非线性预测等。
2.1 线性外推(LE)法
LE法利用音频信号的对数幅度谱包络呈近似线性递减关系来进行高频重建。
在解码端的高频重建中,需要恢复的高频信息包括两部分内容,即高频谱包络和高频谱细节。高频谱包络借助幅度谱的线性关系获得,高频谱细节通过复制低频带的谐波结构获得。具体步骤如下:
首先,对低频解码信号进行时频变换得到其谱包络;其次,采用线性最小二乘法将该包络在对数域拟合成一条直线,得到该直线的最佳斜率和截距;最后,将低频谱信息进行复制得到高频谱细节,并利用拟合直线的斜率对高频谱细节进行包络衰减,完成最后的高频重建。
通过上述原理分析可以看出,LE方法利用了强制谱包络递减的方法来保证重构的高频信息不会淹没低频信息,但当实际的音频频谱包络在对数域不呈下降趋势时,重构高频信息将与原始谱有较大差别。
3.2 有效高频带宽扩展(EI-IBE)法
在解码端的高频重建中,EHBE法首先将低频解码的信号(截止频率为 )进行带通滤波,得到此低频解码信号的最高八度音信号(截止频率为起始频率两倍的带限音频信号fcut),将其定义为基波。然后经非线性手段产生基波B1的二次谐波、三次谐波等一系列谐波,将包含这些谐波的信号记为 。接着将信号S经另一个带通滤波器处理,得到所需的谐波集合,并将其作为重建高频信息。这里,fhigh为频带展宽后信号的截止频率。最后调整此高频信息的增益,并与低频解码信号结合,得到全频带音频信号。
通过上述原理分析可以看出,EHBE法是一种基于八度音信号的高频重建方法,其优点是计算复杂度低,针对不同带宽的信号,只需更改滤波器系数和谐波增益就可进行高频重建。其缺点是,带通滤波器的过渡带会使八度音信号的截止频率不精准,从而导致重建高频信息的准确性下降。
2.3 混合信号外推(HSE)法
在解码端的高频重建中,HSE法首先对每帧低频解码信号进行线性预测,并利用预测系数将每帧信号进行前向和后向外推,以增加时域信号的长度。这样做的目的是为了提高每帧信号的频域分辨率,保证频域外推的准确性。其次,将增长的时域信号加窗,经FFT变换得到频域系数,并对这些系数进行动态估计,得出截止频率。在处理截止频率未知或变化的音频信号时,此操作避免了信号低频谱与重建高频谱之间产生谱间隙。最后,将FFT系数转换到对数域进行线性预测,并利用预测系数外推得到高频谱信息,完成最终的高频重建。
通过上述原理分析可以看出,HSE法是一种时域外推和频域外推相结合的高频重建方法。由于截止频率检测模块的存在,使得此方法适用于未知截止频率或可变截止频率音频信号的高频重建,从而扩大了应用范围。但是,如果此方法处理的是瞬态信号,如鼓声等,增加样点数的时域外推步骤将导致信号动态特性的丢失,从而在反变换后将无法精确恢复出瞬态信息。
2.4 非线性预测法
在解码端的高频重建中,非线性预测法首先将截去高频信息的时域信号进行分帧处理,并对相邻两帧的信号进行MDCT变换,得到低频MDCT系数;其次,求取此低频MDCT系数的嵌入维和延迟量来重构音频非线性动力系统的相空间;接着在重构相空间中,利用Lyapunov指数对MDCT系数序列的混沌特性进行检测,一旦MDCT系数具有混沌特性后,则利用局部自适应非线性预测结合低频MDCT系数预测得到高频MDCT系数;而后再根据人耳的听觉特性与高、低频MDCT系数间的相关性,对高频MDCT系数谱信息的谐波成分进行调整;最后;将原有
的低频MDCT系数与重建所得高频MDCT系数结合,利用逆MDCT变换将其变换到时域,得到经过频带扩展后的全频带时域信号。
通过上述原理分析可以看出,该非线性预测法是一种利用音频信号的非线性动力学特性及人耳的听觉特性的盲目式频带扩展方法,更符合音频变化的一般规律,一但找到了理想的相空间,则会产生高质量的高频信息。这是一项暂新的课题,有待进一步研究。