基于MATLAB的语音增强的研究--谱减算法与子空间算法的比较

 2022-01-18 12:01

论文总字数:34164字

目 录

引言 1

一、语音增强的基础知识 1

1.1语音信号 1

1.2噪声 1

1.3语音增强算法的分类 2

1.4语音信号预处理 2

1.4.1加窗分帧 2

1.4.2短时傅里叶变换 2

二、谱减算法 3

2.1 基本谱减算法 3

2.2 使用过减技术 4

2.3多带谱减算法 5

2.4 采用自适应增益平均和低延时卷积的谱减计算计算更新噪声谱 7

三、子空间算法 9

3.1 基于EVD的方法:色噪声 9

3.1.1 预白化方法 9

3.1.2 内嵌预白化的子空间方法 11

3.2 基于感知的子空间算法 12

3.2.1傅里叶变换域与特征域的关系 12

3.2.2加入心理声学模型约束 13

四、MATLAB简介与仿真 14

4.1 MATLAB简介 14

4.1.1软件特点 14

4.1.2 MATLAB语言的优点 15

4.2 MATLAB的仿真 15

五、 两种算法客观音质测度的比较 18

5.1 客观音质测度 18

5.1.1 分段信噪比 18

5.1.2 基于LPC的谱距离测度 19

5.1.3加权谱斜率(WSS)距离测度 20

5.1.4 感知语音质量评估(PESQ)测度 20

5.2 音质可观测度结果 22

六、结论 24

七、 参考文献 24

致谢 26

基于MATLAB的语音增强的研究

——谱减算法与子空间算法的比较

彭佳慧

,China

Abstract: speech, as a typical non-stationary random signal, is the most convenient method for human to communicate with each other. It plays an important role in human civilization and social progress. Voice interaction has become a necessary means of human-computer interaction, voice transmission, digital recognition, synthesis and enhancement is one of the most important part of the digital communication network, is one of the most basic. The deep research and practical application of speech technology also lead to the problem that all kinds of speech processing systems must face up, that is, to further improve the performance. Speech enhancement is one of the key technologies to solve this problem. Currently, it is divided into two broad categories. One is time domain method (subspace algorithm), and two is frequency domain method (such as spectral subtraction). Subspace algorithm provides a mechanism to control the distortion of speech signals and minimize the residual noise, but the computational complexity is large. On the other hand, spectral subtraction calculations are small, but there is no theoretical mechanism for speech signal distortion and residual noise control. In this paper, we mainly study the theory of spectral subtraction algorithm and subspace algorithm and their application in speech enhancement, is to compare the two algorithms to improve the speech quality, reducing speech distortion, improve the overall quality of the readability.

Key words: speech enhancement; spectral subtraction; subspace algorithm; speech quality

引言

现代通信技术的不断深入研究和因特网的持续高速发展让语音通信得到了更加多的应用,尤其是在日常生活中。在人们日常生活的交流过程中,语音可以在最短的时间内包含最大的信息量,从而成为人们最重要也是最常用的交流和通信手段之一[1]

然而,人们在日常的交流过程中,总会受到来自传输介质(例如在水中)或通信设备的信号干扰,还有外界的环境噪音和其他扬声器的声音的干扰。这些干扰会直接或者间接导致到我们接收到的语音信号的质量的下降。而语音增强就是通过对这些受干扰信号污染的语音信号处理来提高信噪比,从而解决语音的污染和改善语音的质量。

语音增强除了通信领域,在语音识别和语音编码等领域也有着极其重要的应用。为了满足人们的需要,即不断提高语音通信质量的要求,必须添加到系统中前端的语音增强系统来提高系统的抗干扰能力进行预处理,以达到提高系统性能的目的。因为语音增强不仅涉及信号检测等传统的信号处理理论和语言学,而且还与神经心理学等密切相关,此外在实际应用中不同的噪声源导致了许多不同的处理方法,这些都说明了语音增强系统非常复杂并且专业性极高的系统。因此,语音增强方法的研究一直以来都是热点和难点课题。

一、语音增强概述

1.1语音信号

语音信号是一种高度不稳定的信号,二阶统计量(功率谱)随时间变化。语言的产生涉及到一系列的器官和肌肉。肺的功能是吸入氧气,通过吸入良好的呼吸,这是言语产生的主要来源。喉控制声带的功能。声道由口腔和鼻腔组成,从喉咙延伸到嘴唇,通过软腭与鼻腔相连。如果我们把声道道作为一个过滤器,然后从声带的声门气流成型得到不同的音色谱。声带提供了一个激励源的声道,它可以是周期性的或非周期性,这主要取决于声带的状态。

1.2噪声

无论身处何方,我们都被噪声包围,噪声的存在是通过不同形式的。它可以是不平稳的,比如在餐馆吃饭时,人声中总会夹杂着些许厨房的声音,这些噪声是不平稳的;也可以是平稳的,即不随时间而改变。另外不同的噪声频谱的形状是不同的,尤其是噪声的能量分布在各个频率域,比如说风能的噪声频谱主要集中在低频段(小于500Hz),但是餐馆的噪声能量却分布在较为宽的频带内的。

1.3语音增强算法的分类

谱减法:这是最基本也是最容易实现的语音增强算法。该算法是基于这样的基本原理:由于噪声是加性的,因此当在没有语音的时候,可以估计或更新噪声谱,然后从带噪信号中将噪声减去[2]

子空间算法:子空间算法主要源自线性代数理论。具体而言,是基于这样一个原理:在欧式空间中,纯净信号的分布可能局限在带噪信号的子空间。隐刺,如果给定了一种方法用于将带噪信号的向量空间分解到两个子空间,其中一个子空间主要包括纯净信号,另一个子空间主要包括噪声信号,这样就可以简单地通过清除带噪信号向量空间中“噪声子空间”的部分,来达到估计纯净信号的目的[3]

1.4语音信号预处理

1.4.1加窗分帧

语音信号是一种非平稳的随时间变化的信号,由于发声器官的运动而产生语音。发音器官的发声速度要比声音振动的速度慢得多,因此,我们将语音信号视为是短时间静止的。有研究表明,在5 ~ 50ms的时间范围内,语音的一些频谱特征和一些物理参数是几乎不变的。因此,我们可以在处理语音信号频谱的时候可以引入短时静止这个概念。将语音信号分成多个很短的语音段,每个短的语音段称为子帧。这样,每个帧的语音信号处理可以等效于处理具有固定特性的连续信号。

窗口化处理就是将窗口函数 与信号相乘。加窗是为了减少帧处理过程中引起的频谱泄漏。由于矩形窗函数频谱的旁瓣会很高,信号的频谱就会产生“拖尾”现象,即频谱泄漏。因此,我们可以采用的是汉明窗,因为汉明窗具有最小的旁瓣,它可以有效地克服泄漏现象。此外,它具有平滑的低通特性,并且频谱是比较平滑的。

汉明窗定义如下:

1.4.2短时傅里叶变换

在信号处理过程中很重要的就是是语音信号的频域分析。在频域内研究语音信号比在时域中研究更有优势,比如可以使某些原本在时域内不能显现的特征的信号变得十分的明显,而比较常用的频域研究方法就是进行傅里叶变换。

总所周知的是,傅立叶变换是应用于数学的一门学科,它将信号分解成不同的频率分量,将信号的时域特性和频域特性相互联系起来来处理信号。但是傅立叶变换采用了全局变换,不能描述信号的局部性质,可惜的是,语音信号是短时稳定的,传统的傅立叶变换并不能很好的处理语音信号,而短时傅立叶变换则正好弥补这一缺陷,我们可以做帧处理的讲话和计算的傅立叶变换的帧,以便短时傅立叶变换,可以得到:

剩余内容已隐藏,请支付后下载全文,论文总字数:34164字

相关图片展示:

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;