语谱图是什么?关于语谱图的详细介绍

创闻科学2020-11-16 15:01:38

语谱图(Sonogram或Spectrogam)是表示语音频谱随时间变化的图形,它采用二维平面来表达三维信息,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。颜色深,表示该点的语音能量越强,反之表示该点语音能量较弱。

背景介绍

20世纪50年代,贝尔实验室的研究人员发明了语音信号的语谱图,它是频谱能量随着时间变化的二维图,从而使我们看到了”语音“。

语谱图在语音分析中具有重要的价值,被视为可视语言。从语谱图中不仅能看出任一时刻发音器官的共振峰特征,而且可以看出语音的基因频率,是否清音、爆破音等。不同语音的语谱图其形成纹络均有很大区别。语谱图中显示了大量的与语音的特性有关的信息,它综合了频谱图和时域波形的特性,明显地显示出语音频谱随时间的变化情况。语谱图所承载的信息量远远大于单纯时域和单纯频域承载信息量的总和。

语谱图的定义

语谱图是一种频率随时间变化的三维图谱,横坐标代表时间大小,纵坐标代表频率大小,时间和频率所对应的像素点的值可以反映出相应时刻和频率的能量。语谱图是一种可观察信号特性的平面图,通过分析音频的产生原理可以观察到声源点的共振属性和声乐在自然界的特性。

语谱图用颜色深浅表示声纹强度大小,颜色深在语谱图中所占比重大,那么相应影响人感知的效果要强烈得多。声纹不同,所反映的说话人和语义也会有所不同。因此,可以应用语谱图的声纹特征进行说话人的识别及语义识别,可应用于汽车声控锁,公安取证等方面。

语谱图产生原理

研究语谱图的主要理论方法是傅立叶分析和短时傅里叶分析以及快速傅里叶变换。

设离散时域采样信号为 ,其中 n 为时域采样点序号,N 是信号长度。对信号进行分帧处理,则表示为,其中 n 是帧序号,m是帧同步的时间序号,N 为帧长(一帧内的采样点数)。

对语音信号做短时傅里叶变换(STFT):

对语音信号 x(n)做离散时域傅里叶变换(DTFT):

离散傅里叶变换(DFT)得:

其中 0≤k≤N-1,则 就是的短时幅度谱估计,而时间 m 处频谱能量密度函数(或功率谱函数)为:

表示信号的短时自相关函数的傅里叶变换。用时间 n 作为横坐标,k作纵坐标,将的值表示为灰度级所构成的二维图像就是语谱图。

语谱图产生流程

产生流程

首先根据原始音频信号长度来进行适当分帧,然后使用窗函数进行加窗处理,再对加窗以后达到的每一帧音频信号进行快速傅里叶变换,然后根据傅里叶变换的系数计算相应时间和相应频率点上的信号能量,再将该能量进行分贝表示并且归一化,最后再对以上得到的数据矩阵进行伪彩色映射得到语音信号的语谱图。

根据需要, 可以得到二维灰度显示的语谱图、二维彩色显示的语谱图或者三维显示的语谱图。

语谱图的实现过程如图所示:

算法流程
  1. 读取一段语音信号,获得其采样数据序列,采样频率

  2. 计算窗长,然后根据大小确定分段数 N,并确定帧移大小;

  3. 根据大小,将原始语音信号分为 N 帧,假设 表示其中第 i 帧信号的数据;

  4. 对第3步得到的第 i 帧信号进行加窗处理,

  5. 对加窗后的该帧信号进行快速傅里叶变换,变换后的数据用 表示;

  6. 记录 的相位,用 表示;

  7. 计算第 i 帧信号的能量密度函数,并将该能量密度 P 换算为 dB 表示;

  8. 将 P 保存在矩阵 A 的第 i 列;

  9. 滑动窗向右移动 个采样点,按照 大小,取得第 i+1 帧语音信号数据 s ;

  10. 重复第4步至第6步,得到 行、 N 列的矩阵 A ;

  11. 将矩阵 A 映射为灰度图,得到原始语音信号的语谱图。

分类

根据带通滤波器的宽窄,语谱图共分为两种,一种是宽带语谱图,它的带宽一般为300Hz ;另一种是窄带语谱图,它的带宽一般为 45Hz 。不同的语谱图所表现的语音特征也不同。在分析具体的语音信号时,要根据所要研究的语音信号的具体特征选择合适类型的语谱图。

宽带语谱图

宽带语谱图的频率分辨率通常取为 300~400Hz,具有良好的时间分辨率 2-5ms,但是频率分辨率较差。

宽带语谱图的典型谱型:

  1. 宽横杠(Bar)

    代表元音的共振峰位置,表现为图中与水平时间轴平行的较宽的黑杠,不同元音的共振峰位置不同,根据宽带语谱图上各横杠的位置可以区分不同的元音,不同人发音的第一共振峰位置会不同,但其分布结构是相似的。

  2. 冲直条(spike)

    代表塞音(b,d,g,p,t,k)或塞擦音(z,zh,j,c,ch,q)的除阻段,表现为图中与垂直频率轴平行的较宽的黑条,在时间上持续时间很短,在频率轴上集中区位置随不同的辅音而不同。

  3. 摩擦乱纹(fill)

    代表摩擦音(s,sh,x,f,h)或者送气音的摩擦段或者送气部分,表现为图中无规则的乱纹。

这三种模式的单独出现或组合就构成一切语音的模式,代表了一切语音的音色。

窄带语谱图

窄带语谱图的频率分辨率为 45~100Hz,具有良好的频率分辨率,时间分辨率(>10ms)较差。

窄带语谱图的典型谱型:

  1. 窄横条

    代表元音的基音频率及各次谐波,表现为图中与水平轴平行的线条,窄横条在频率轴的位置对应了音高频率值,随时间轴的曲折、升降变化代表了音高变化的模式。

  2. 无声间隙段

    对应于语音的停顿间隙,在图中表现为空白区,在两种语谱图中都存在。