语音端点检测是指用计算机数字处理技术来找出语音信号中的字或词等的起点和终点这俩个端点。作为语音识别的前端,准确的端点检测可以提高识别的准确率。语音端点检测的困难在于一段信号中的无声段或者录制一段语音段的前后人为呼吸等产生的杂音、语音开始处的弱摩擦音或弱爆破音以及终点处的鼻音,这些使得语音的端点需要综合利用语音的各种信号特征,从而确保定位的精确性,避免包含噪音信号和丢失语音信号。
常用语音端点检测法有短时过零率法、短时能量法以及双门限法。但是对于信噪比要求较高,所以本文提出了一种基于谱减法思想的语音端点检测算法,提高语音端点检测的正确率。
2、语音端点检测方法
常用方法中的短时能量法,语音和噪声的区别可以体现在它们的能量上,语音段的能量与噪声段能量相比,要大于噪声段的能量,因此可以以此为依据进行检测;短时过零率法,短时过零率可以区别语音是清音还是浊音[1,2],因此它可以从背景噪声中找出语音信号;传统双门限比较法,首先为短时能量和过零率分别确定两个门限,较低的门限对信号的变化比较敏感,较高的门限是用来确定进入语音段。当低门限被超过时,未必是语音的开始而很有可能是由很小的噪声所引起的波动,但当高门限被超过并且在接下来的时间段内一直超过低门,则意味着语音信号的开始[3]。但是上述三种方法在低信噪比时检测效果就不是很理想了。因此我们提出了一种改进算法。
3、基于谱减法思想的语音端点检测算法的研究
3.1 谱减法概述
由于语音生成模型是低速率语音编码的基础,当语音受到噪声干扰时,提取的模型参数将很不准确,重建的语音雷竞技百科 急剧恶化。再如,语音识别系统在实验环境中可获得相当好的效果,但在噪声环境中,尤其是在强噪声环境中使用时,系统的识别率将受到严重的影响。在这些情况下,采用语音增强技术进行预处理,将有效的改善系统的性能。
谱减法是利用噪声的统计平稳性以及加性噪声与语音不相关的特点而提出的一种语音增强方法。这种方法没有使用参考噪声源,但我们假设它的噪声是统计平稳的,即有语音期间噪声幅度谱的期望值与语音间隙噪声的幅度谱的期望值相等。用无语音间隙测量计算得到的噪声频谱的估计值取代有语音期间噪声的频谱,与含噪语音频谱相减,得到语音频谱的估计值[3]。
3.2 基于谱减法思想的语音端点检测算法
谱减法的思想很重要,在这一算法中我们充分利用了噪声的统计平稳性以及加性噪声与语音不相关的特点。
不管是计算短时能量还是短时过零率,我们都要进行分帧处理。在噪声背景下,我们认为前几帧一定是背景中的噪声(在本实验中取了前五帧),然后通过计算这几帧的能量得到一个参考值。在与短时能量的阈值比较时,我们先要减去背景噪声的参数,然后在进行比较。这样可以再一定程度上减小背景噪声对端点检测的影响,提高检测的正确率。
用谱减法进行语音增强时,计算了噪声的功率谱还有加噪语音的功率谱在,并且储存加噪语音的功率谱减去噪声功率谱的数据。但是在我们的算法中,我们只是计算了五帧的背景噪声数据,然后再判断是利用了这一参数,并不需要储存大量的数据,不仅节省了储存空间,而且加快了计算机运行程序的速度。
4、实验仿真及分析
严格说改进算法是一种基于语音增强思想的语音端点检测算法。五种信噪比较高情况下,传统算法与改进算法实验结果比较如(表1)所示。
5、结语
在不同信噪比情况下,通过对比传统算法与本文提出算法,我们得出结论:双门限比较法仅在信噪比较高时才能正确检测出端点,而本文提出的改进算法在信噪比较低时也可以实现对语音端点的正确检测。
网址: http://szy_wy87.www.sqrdapp.com
网址: http://szy_wy87.www.sqrdapp.com