论文总字数：32339字

摘要

随着信息技术的快速发展，人类对人机交互技术的要求不断提高，语音识别和手势识别的研究一直是各国科学界的重点与关注点，也是成为了智能计算机研究的主导方向。随着语音和手势识别技术研究的进展，它们在社会生活中的重要性也越发明显。大到航空母舰的发射，小到声控电话等家庭服务，都是建立在语音和手势识别的基础之上。对于语音手势识别研究，分析这两者中的关键技术，是本文的重点研究内容。

本文首先介绍了语音和手势识别的研究背景与意义，对语音和手势识别的研究现状作了概括性的描述，并分析了语音和手势识别研究中的关键问题。

针对语音识别，本文中主要采用的是动态时间归整（DTW）算法和Mel频率倒谱系数（Mfcc）的提取。dtw算法基于动态规划（DP）的思想，解决了发音长短不一的模板匹配问题，这是一种简单有效的经典算法；Mel频率是利用它与Hz频率所成非线性对应关系计算得到的Hz频谱特征。对于手势识别，其核心是David Lowe提出的sift算法，该算法具有良好的不变性和很强的匹配能力，是一种提取局部特征的算法。最后根据两种识别方法得出的识别结果的准确程度，选择准确程度大的作为最终的识别结果，这样能有效的提高在有噪声或者遮挡的干扰情况下识别的准确度。

关键词：语音手势识别，动态归整算法，MFCC系数，sift算法

Robust interactive research technology based on speech and gesture recognition

Abstract

With the development of information technology, there is increasing demend for human-computer interaction techniques. The research of voice recognition and hand recognition is always hot in the field of science, and it is becoming the leading direction of intelligent computer systems. With the research of voice and hand recognition becoming deeper, it plays a more important role in our social life. From the aircraft carrier to the telephones respond to voice is all based on the voice and hand recognition. Analysising the keypoint between the voice and hand recognition is the point in this paper.

This paper describes the background and significance of the speech and gesture recognition.Research status of voice and gesture recognition are described generally. Finally analyzing the voice and gesture recognition of the key issues.

With the fast development of information technology and increasing requirement for human-computer interaction (HCI) technology, For voice recognition,this paper mainly uses dynamic time warping algorithm and Mel Frequency Cepstral Coefficients Extraction.DTW algorithm is based on dynamic programming.It has solved the template matching problem of the pronunciation of different lengths.It is a simple and effective classical algorithm.There is a nonlinear relationship between Mel frequency and Hz frequency.Mel frequency calculated by this feature.For gesture recognition,its core is sift algorithm proposed by David Lowe.The algorithm is very stable,and has strong ability of matching.It is an algorithm for extracting local feature.Finally, according to the exact degree of the results of the two identification methods,choose a large accuracy as the final recognition result.This can effectively improve the accuracy in the presence of noise or sheltering.

KEYWORDS: Speech recognition, gesture recognition, DTW, MFCC, SIFT

摘要 2

Abstract 3

第1章绪论 5

1.1 研究背景及意义 5

1.2 研究现状 6

1.3 研究内容与章节安排 8

第2章语音识别研究 9

2.1 语音识别概述 9

2.2 语音信号预处理 10

2.3 特征参数的提取 14

2.4 语音识别 15

2.6 本章小结 19

第3章手势识别研究 20

3.1 手势识别概述 20

3.2 手势分割 20

3.3 肤色提取 21

3.4 特征参数提取 24

3.5 识别................................................................................................................29

3.6本章小结 32

第4章双模融合与结果 33

4.1 双模融合常用方法 33

4.2 本论文中的融合方法............................................................................35

4.2 实验结果..............................................................................................36

第5章工作总结与展望 38

5.1 工作总结 38

5.2 今后工作的展望 38

参考文献 40

致谢 42

绪论

研究背景及意义

现代科学技术发展越来越快，人类也需要一种更加方便快捷的方式来与机器进行信息交流，文字和肢体语言作为一种最常用和最方便的交流方式，自然被人们想到用来代替键盘、鼠标等传统的人际交流方式。

近年来，语音识别渐渐成为研究领域非常活跃的一项工作。语音识别技术的研究对象是语言，涉及到计算机信号处理，语言学，生理学等很多领域，在语音信号处理中是一个非常重要的研究方向。随着计算机技术、信息处理技术、模式识别等的发展，语音识别系统能够满足越来越多的需要。未来，在人机交互中，语音识别将会处于一个比较重要的位置，键盘鼠标这类设备很有可能被弃用，而是用语音来对个人计算机进行操作。而在智能家居，医疗服务，军事，交通，工业现场控制等场合，语音识别的发展前景更加广阔。当今，语音识别在人机交互方面正起到越来越重要的作用。在人类还没有发明计算机时，就已经开始语音识别的研究。当时语音识别的雏形：早期的声码器已经被广泛运用。最早的语音是被工具是上个世纪二十年代生产的“Radio Rex”玩具狗，当有人对玩具狗喊出它的名字时，它便会从底座弹出来，这种玩具狗在当时也是风靡一时，深受人们喜爱。而由ATamp;T贝尔实验室研究发明出来的Audrey语音识别系统可以算是首次基于计算机开发出来的语音识别系统。该系统对10个英文数字能有高达98%的正确识别率。上个世纪六十年代，语音识别中引入了人工神经网络，线性预测编码Linear PredictIve Coding（LPC）和动态时间弯折技术Dynamic Time Wrap便是在当时被提出，是语音识别领域的两大突破。随后，隐马尔科夫模型Hidden Markov Model（HMM）被提出。Banm、Labiner等科研人员经过不断的探索，最终开发出一种语音识别系统Sphinx，它能够在很大的词汇量中进行识别，是语音识别领域至今最为重大的突破，并且这是第一个基于HMM模型的语音识别。

手势结合动作和视觉，它的表达方式生动并且直观，在我们的日常交流中是必不可少的。随着社会科学的进步以及智能计算机的迅速发展，人们对人机交互技术的需求也越来越强烈，通过手势这种简便可行的方式来进行人机交互被提出，不论在国内还是国外，这种方式都已成为研究热点。国内外各大公司以及很多研究所对手势识别也非常关注，可见，手势识别作为一个研究热点，因为它的实用、方便、快捷，可预见在不久的将来会有非常广阔的市场需求。对于聋哑人来说，他可以很方便的通过手势识别和别人进行交流；对于儿童或者一些文化程度不高的人来说，手势识别能帮助他们便捷的操作计算机或者其他机器。除此之外，手势识别在家庭服务，医疗服务，交通服务中也会有非常重要的作用。

不论是日常生活还是人机交互，手势都有着非常重大的作用。但是传统的如键盘，鼠标这些工具只是用到了极少数的手势信息。如用户使用鼠标时，仅仅是通过收的移动和手指的点击来时计算机获取信息，其他的任何信息计算机都是不能识别的，范围及其狭隘。所以将基于视觉的手势作为一种的输入方式来进行人机交互是一种实用且适应人类发展的研究动向。虽然手势识别技术被人们看好，是新兴人机交互中不可或缺的一项，但是手势具有很多复杂的特性，如多样性，多义性；空间和时间上的差异性；视觉的不确定性等，手势识别也由此成为一项非常具有挑战意义的交叉融合多种知识的研究项目。

研究现状

语音识别可以追溯到二十世纪30年代至50年代，那时人们对语音处理的研究较浅，利用从语音中提取的特征参数制作合成模拟电路，实现的语音处理功能较为简单。到了二十世纪60年代至80年代初，集成电路和计算机技术渐渐发展，语音识别技术也日益趋于成熟。这期间，为了解决语音识别中不等长匹配的问题，动态规划方法（DP）被创造出来。十几年后，基于动态时间归整（DTW）技术和线性预测倒谱（LPCC）系数的孤立词特定人语音识别系统被提出，从而语音信号特征提取和不等长匹配问题已不为人们所困扰，隐马尔可夫（HMM）和矢量量化（VQ）这些新理论也逐渐被提出并且应用。进入80年代，人们进一步深入研究语音识别，隐马尔可夫模型（HMM）以及人工神经元网络的成功应用是语音识别研究中最为显著地突破，语音信号长时时变，短时稳定的特性被解决，建模精度和灵活性大大提高。进入二十世九十年代至今，超大规模集成电路技术（遵循摩尔定律）迅速发展，同时人工智能和计算机多媒体技术的发展被大大促进，人类进入数字信息时代，伴随着的是人类对语音识别技术愈发迫切的需求，于是，人们深入研究发展语音识别技术，使其从理论走向实践，从而不断的推出以语音识别技术为基础的产品。如1997年，IBM公司开发出ViaVoice语音识别系统，而到了1998年，该系统被改进为能够识别具有地方口音的语言，如广东，四川话都能够被识别出来，并且对于新闻语音识别，该系统有比较高的识别精度，还能够“纠错”，成为目前连续语音识别系统的代表。再比如，自二十世纪六、七十年代以来，嵌入式语音成为一个热门课题，被人们努力研究探讨。但是当时技术未成熟，研制出的识别芯片的识别准确度低，性能也不好，不实用。直到最近的十年，人们对语音识别技术研究更加深入，集成电路技术也更加成熟，渐渐出现了识别性能好，具有广阔市场的语音识别芯片。

我国的语音识别研究起步不算早，但是发展很迅速。对于个人计算机的语音识别，我国的研究程度不仅不比国外落后，还具有很多自己的先进之处，但是在汉语识别芯片方面，大部分还需要与国外合作研制。清华大学课题组进过深入研究，开发出识别精度很高的语音识别系统，是非特定人的连续数字识别，对于不定长数字串识别精度达94.8%，对于定长数字串识别精度达96.8%，当有5%的拒识率时，识别精度还能再高约2%，该系统性能在国际也处于领先位置，基本接近实用水平。此外，Infineon公司与清华大学合作，开发了一种采用0.18um工艺生产的语音信号处理的专用芯片UniSpeech。该芯片中，集成了存储器、DSP叫MCU的双核、ADC与DAC的模拟处理单元。该语音处理SoC芯片成本低，可靠性高，在语音识别和压缩编码领域是一个重大进展。该芯片集成了两路具有12bit精度，频率8kHz采样的ADC和两路具有11bit精度，频率8kHz采样的DAC。芯片内部将采样后的数据以16bit格式保存。如此精度的ADC/DAC在语音识别研究领域中基本可以满足需要。

至于手势识别到上个世纪九十年代，人们已经开发了很多基于手势的应用。最早前的研究主要是利用一个硬件设备来作为输入。比如数据手套，简单来说就是数据手套中有传感器，人手戴上后，计算机会通过传感器来获取手的很多信息，如手指的动作情况和手的位置。1993年，B.Thamas利用数据手套作为输入工具，研制出一种自由手控制目标的系统，实验时需要实验人员戴上数据手套。随后科研人员又通过标记手势，如把有着特定颜色的圆点贴在手指或者手腕的地方，来对手势进行识别，虽然比数据手套便捷一些，但仍然比较麻烦。最后科研人员集中精力研究自然手，使用专业的加速硬件，进行脱机训练，最终只研制出了只能识别几个手势的识别系统。比如1994年，在静态的复杂背景下，高文等科研人员研究了手势的捕获和识别，次年，他们又在动态复杂背景下探索出手势的识别方式。到了1999年，常红等科研人员推出一种手型手位跟踪法，该方法基于计算机视觉技术。三年后，邹伟进一步提出了一种人手空间跟踪法，该方法基于双信息源。

在笔记本电脑发展迅速的今天，逐渐出现一种不需要键盘的笔录入计算机，这种计算机的功能是通过手势识别技术来实现的。Watson有过一篇文章，主要对当今手势识别的研究及其应用进行综述。，人体运动这几年在HCI领域已经成为一个重要课题^[1][2][3]，尤其是手势。很早以前人们就想方设法摆托鼠标键盘等不方便也不自然的硬件输入方式，一些设备应运而生，就如上文说到的数据手套，但是它既昂贵又笨重，实在不是一个实用的选择。人们便想利用摄像机这种低成本的视觉方式来捕获人手的动作，这种方案既符合实际也具有广阔前景。该方案的提出更加促进了图像处理，建模分析，手势识别等各个方面的发展。

剩余内容已隐藏，请支付后下载全文，论文总字数：32339字

注册

找回密码

基于语音、手势双模融合的鲁棒人机交互技术研究

绪论

研究背景及意义

研究现状

您可能感兴趣的文章

登录

绪论

研究背景及意义

研究现状

您可能感兴趣的文章