基于空间金字塔稀疏编码的图像分类算法-毕业论文网

论文总字数：21160字

目录

一引言 1

1.1课题的研究背景和意义 1

1.2课题的研究现状 1

1.3论文的主要工作 2

1.4论文的结构安排 2

二 sift特征提取 3

2.1介绍SIFT特征提取 3

2.2实验结果 8

2.3本章小结 10

三图像分类模型 10

3.1图像分类流程概述 10

3.2稀疏编码 11

3.2.1从矢量量化到稀疏编码 11

3.2.2 L1范数 12

3.2.3 L0范数 13

3.3线性空间金字塔匹配 14

3.4本章小结 16

四实验结果与分析 17

4.1数据库及对比算法介绍 17

4.1.1数据库介绍 17

4.1.2对比算法介绍 18

4.2实验结果 19

五总结与展望 22

5.1总结 22

5.2展望 22

参考文献 22

致谢 24

基于空间金字塔稀疏编码的图像分类算法

赵健

，China

Abstract:SVMs using spatial pyramid matching (SPM) kernel have been highly successful in image classification. On the one hand, it considering the spatial relationship between visual words.In addition to its popularity, these nonlinear SVMs have a complexityin training and in testing, where n is the training size, implying that it is nontrivial to scale up the algorithms to handle more than thousands of training images. In this paper we develop an extension of the SPM method, by generalizing vector quantization to sparse coding followed by multi-scale spatial max pooling, and propose a linear SPM kernel based on SIFT sparse codes.

Key words:SPM；Image Classification；Sparse Coding ；Spatial Visual Codebook

一引言

1.1课题的研究背景和意义

在数码相机与智能手机普及的年代里，各种各样的数码产品都具有了拍照摄像功能。这些产品已经融入了人们日常并成为了每天生活的必需品。每天，都会有新的照片因人们的各种需求而产生，比如：出游时拍的风景照纪念照，日常生活食物、表情，工作学习记录重要文件。因此，照片成为了人们分享日常欢乐，保留日常生活点滴的最主要方式。朋友圈和微博的兴起更加提高了图片在人们生活中的重要性。科学技术，尤其是电子信息和计算机技术的日新月异，对图像的采集和应用，以及加工技术越来越有更高的要求。许多科研工作者投入图像处理这项新兴技术中。并且近段时间来取得备受瞩目的长足进展。随之，出现了许多与之相关的新理论、新技术、新算法、新手段和新设备。使得图像处理技术的在娱乐、管理、交通、通信、医疗、遥感、等方面的作用越来越举足轻重。

图片相对于文字有着直观，生动的特点。据调查研究表明，人类能够获取信息方式的百分之八十都来源于视觉获得，而图像在视觉获取中又占很大比例。图片对推动社会发展、改善人们生活水平起到举足轻重的地位。然而，正由于图片的作用日益变大，载体越来越多，传播越来越方便，也使得图片的数量变得很庞大，要从浩如烟缈纷繁复杂的图像中迅速准确地找出感兴趣的所需要图像也就变得很困难。

通过对图像的不同类型进行分门别类，可以使人们通过类别较为快速的找到自己需要的图片，缩短找寻时间从而提高工作效率。然而人工手动的对海量图片进行分类需要耗费大量的时间和精力，并且所耗费的成本巨大，不是最有效率的处理方式。人工手动对图片进行分类，会因为各种人为的失误，如判断错误，认知错误、操作不当等使在分类时发生错误，造成不可预估的损失。不同的人可能会对同样的图片有着不一样的理解，导致对同一类型的图片分类出的结果有所不同。这就需要制定统一的分类规则。这些原因都导致了人工对图像进行分类的方式慢慢被用计算机对图片进行分类的方式取代。

计算机对图片进行分类相对于人工分类有很多独特优势。比如，计算机通过固定的特性对图片进行分类^{[ 1 ]}，因此不会出现二义性；计算机处理和反应速度比人脑要迅速的多，可以节约事假提高效率；计算机不会和人一样在长时间工作后出现疲劳的现象，所以工作时间长，并且不会出现因疲劳操作不当而导致的分类错误；计算机运行成本相对于人力成本来说低廉的多，节约实验本金。因此，利用计算机进行图像分类的方式成了各个行业对图像进行分类处理的主流方式。

1.2课题的研究现状

图像分类从上个时代六十年代开始，八十年代后逐渐被各行各业所应用，各种分类方式不断涌现。它的兴起主要得益于两种技术的发展：一种是数据库技术，另一种是计算机显示技术。

近年来，袋（BoF）特征模型^{[ 2 ]}(Bag-of-features)在图像分类中受用面十分广泛。这种方法是从图像中提取无序的外观描述的集合，量化成离散的“视觉单词”，然后计算出一个紧凑的直方图来表示图像分类，如目标识别、场景分类。

袋特征的方法丢弃了局部描述符的空间秩序，因而这种方式严重制约了图像的表达效果。为了解除制约效果，一种被叫做空间金字塔匹配^{[ 3 ]}的扩充袋特征模型提了出来，并且在一系列图像分类基准上取得了令人瞩目的成功，是目前来说最先进的方式^{[ 4 ]}。该方法分解图像成段不同尺度L = 0，1，2，在每段计算袋特征直方图，最后串连所有直方图矢量形式表示的图像。只有当L = 0，在这种情况下，才可以用空间金字塔降低袋特征。

通过之前的实验发现，为了获得良好的性能，无论是袋特征和SPM(Spatial Pyramid Matching)应用必须应用一个特定类型的非线性Mercer核，如交叉核或卡方核。相应的，非线性SVM(support vector machine)在训练阶段需要运算复杂度为O（）和存储复杂度为O（），其中n被当做训练样本。此外，由于支持向量的数目随n呈线性增长，在测试中的计算复杂性为 O（n）。这种可扩展性同时也表现为很大的限制性，即它不能随意的将它们运用到实际的应用程序，它的训练样本正常都以万计数。

最近的几年来，出现了许多改善传统袋特征模型的作品，如生成方法的码字^{[ 5 ]}或符合描述符的共生造型，判别码本学习而不是标准无监督的K-means聚类和用于建模的空间金字塔匹配内核(SPM)的空间布局的局部特征，此外，还有许多其他的进展。在这些作品进展中，尤其突出的是Grauman和Darrell提出的的特征空间金字塔匹配和Lazebnik等人提出的SPM。

SPM因其简易构造在实践过程中效果很好，并成为最先进系统的主要成分。例如，它在2008年的PASCAL系统挑战赛中表现最佳。尽管获得这样的成就，SPM仍需要运行非线性内核，如交叉内核和卡方内核，从而得到理想的效果，然而这需求海量的运算和大型存储空间。意识到这一点后，安娜·博世等人用随机的树状图，而不是更快的培训和测试支持向量机。最近一段时间，麻吉等人发现可以通过建立直方图交叉内核支持向量机。然而，只有来自于预训练的非线性SVM才能发挥作用。在涉及超过几万训练样例的实际应用中，线性核支持向量机更受青睐，因为他们与非线性的内核相比有更快的训练和测试速度，内存需求显著减少。因此，本文提出的使用SIFT（Scale-invariant feature transform)稀疏码^{[ 6 ]}的线性SPM在实际应用中是非常有前景的。

1.3论文的主要工作

论文围绕图像分类算法进行展开。进行工作为：对图像进行空间金字塔划分并提取SIFT特征，将特征点依据视觉词典进行稀疏编码，得到的图像描述根据分类器进行分类。本文主要对其中的SIFT特征提取，空间金字塔划分，以及稀疏编码进行研究。论文最后通过实验验证算法的优越性以及提出它的不足之处。

1.4论文的结构安排

本文共分为五章，按照对图像分类流程中所用到的关键技术的介绍展开。

第一章，介绍图像分类的出现原因，现状及意义。

第二章，介绍SIFT特征提取。

第三章，重点介绍图像分类模型，空间金字塔模型和使用的稀疏编码

第四章，给出使用MATLAB软件，图像分类的实验结果。

第五章，总结图像分类的研究成果，指出本文在理论上的优点，理性看待所用方法的不足，探讨了未来的研究方向，并对后续工作进行了展望。

二 sift特征提取

尺度不变特征变换算法是当今比较使用大众的一种用来检测局部特征的算法，这种算法通过求一幅图中的特征点以及有关它的尺度和方位的描述子得到特征并进行图像特征点匹配，取得理想的效果。这种算法有很多优点，比如它的尺度不会变化，另外即使改变旋转的角度，进行平移或反转，增减图像亮度或改变拍摄角度，仍然能够得到好的检测效果。它利用金字塔和高斯核滤波差分来快速地求解高斯—拉普拉斯空间中的极值点，提取所需要的特征。

2.1介绍SIFT特征提取

SIFT特征提取可以分为以下5个步骤：