基于PageRank算法的图像相关性分析与实现

 2022-01-17 11:01

论文总字数:21148字

目 录

1 绪论 1

1.1 课题研究意义 1

1.2 国内外研究现状 1

1.3 论文框架结构 2

2 整体分析与实现 2

2.1 可行性分析 2

2.2 需求分析 3

2.3 功能设计 3

2.3.1 功能陈述 3

2.3.2 画图分析与设计 4

2.4 课题研究环境 4

2.4.1 课题研究环境 4

2.4.2 课题研究硬件配置 5

2.5 技术背景研究与分析 5

2.5.1 图像的特征提取 5

2.5.2 图像局部特征 5

2.5.3 SIFT特征 6

2.5.4 SURF算法 7

2.5.5 PageRank算法 12

2.5.6 MATLAB(矩阵实验室) 14

3 课题研究实现 15

3.1 总体功能模块设计 15

3.2 详细设计 15

3.2.1 SURF算法 15

3.2.2 PageRank算法 17

3.2.3 生成优化图像列表 17

3.3 实现的关键代码 17

3.3.1 SURF算法 17

3.3.2 PageRank算法 21

4 算法测试 21

4.1 提取和匹配图像特征 21

4.1.1 提取SURF特征 21

4.1.2 匹配SURF特征 22

4.1.3 生成图像邻接矩阵 24

4.2 PageRank算法分析图像相关性 25

4.3 优化图像列表 25

5 论文总结与展望 27

5.1 工作总结 27

5.2 展望 28

参考文献 28

致谢 30

1 绪论

1.1 课题研究意义

由于科学技术的发展,连带着网络通信设备和多媒体技术大大发展,并且一些硬件设备如数码相机,摄像机都不断更新换代,这些设备的使用,使互联网上数字多媒体数据尤其是数字图像呈爆炸性地增长。数字图像以直观、生动和极大亲和力等特性成为人们生活中重要的信息载体,人们越来越喜欢在网上分享他们感兴趣的、当下流行的一些图片。但是在网络多媒体数据图像在给人们生活带来方便的同时,也给数字信息管理等方面带来重大挑战。并且通过使用各种强大的数字图像处理工具,人们很方便地对原始图像数据进行有意或无意地复制、修改等操作,从而生成各种近重复副本,或者通过数码相机、摄像头在同一个场景拍摄出几乎相同的图像,并通过网络通信技术将这些近重复图像传播和发布。我们称那些内容相同或大致相同的图像为近重复图像。因此,网上散布着许多描述相同内容的各种版本的重复图像,这就造成了搜索效率的低,用户浏览体验较差,满意度低的不好结果。

于是针对这个问题,本课题提出使用PageRank算法思想进行图像相关性分析,对于在图像搜索引擎下搜索的某一关键字的搜索结果来讲,大部分图像之间必然会存在一定的视觉相关性,但也会有少部分图像和搜索内容无关。我们将图像按照相关性进行排序,从而优化查询结果,提高用户对图像搜索结果的浏览体验和浏览效率,用户约希望优先浏览的图像排序靠前。

1.2 国内外研究现状

首先,从现有的成果来看,大部分图像相关性分析是建立在图像的视觉内容相似度上的。图像相似程度的衡量主要可以分为两种方式,一个是基于图像全局特征的相似度衡量。全局特征强调的是以压缩的描述子快速识别图像的相似程度,它从一幅图像的全局的内容提取而来。常见的全局特征有颜色直方图,边缘直方图、顺序测度等等。然而,虽然全局特征容易提取,但是它对于网络复杂的近重复图像来讲并不鲁棒。而从直观的人类视觉体验来看,对于物体的描述,在人类视觉来看,是偏向于局部化的。于是越来越多的研究者开始研究表达能力更加丰富的局部特征来衡量图像间的相似程度。对于接近人类的视觉机理这个要求,在图像识别时采用局部不变特征可以满足。并且局部特征的方法避免了全部特征在鲁棒性方面的缺陷,可以更加精确的描述图像的视觉内容。一些常见的局部特征包括sift,bow,surf等。

其次,当下图像相关性分析的方法也有很多种,比较流行方法是计算一个图像和该图像集合中其余图像的平均相似度为依据进行相关性排序。但是这种求取平均值的方法不能很好地捕捉一个图像集合中图像之间的上下文联系。在研究网页质量排序算法的时候,发现一些链接分析算法的原理可以用于分析图像的相关性,并且考虑了图像的上下文视觉联系,对本文的研究有一定的启发。

所以,对于网络引擎搜索的含有大量近重复图像的结果而言,使用全局特征并不是衡量图像相似度的最好方法,于是本文采用局部特征作为描述算子,通过图像之间基于局部特征的匹配计算相似度,以衡量网页重要程度的链接分析算法的思想为核心,进行图像上下文的分析,设计出一个更加精确的图像相关性分析与排序的方法。

1.3 论文框架结构

首先论文的第一部分,介绍了图像在人们的生活中越来越受欢迎,但同时也带来了不便。由此引出本课题,紧接着讲述了本课题的研究意义,然后介绍了本课题研究的国内外现状,明确分析出存在的问题和需要改进的地方。

第二部分是对本课题研究的整体分析和设计。我们首要考虑技术条件是否满足,所以我们对技术设备和背景知识进行了介绍;接着对功能效果进行查看,着重分析了具体功能,用流程图的方式描绘了整个开发过程;最后对实用性进行分析,分析该课题研究的实用性。

第三部分是课题的部分功能的实现。对于已有图片提取它的局部特征SURF特征,并对其进行过滤,设定相似度匹配的阈值,将图像集中的图像进行两两匹配,生成图像连接矩阵。

然后利用PageRank算法迭代对图像进行基于视觉内容的相关性分析,直至每个图像的中心权值收敛不变。并将中心权值排序得出最后的优化图像列表。

第四部分是对本课题的最终研究结果的功能测试,分步介绍了本课题的各个阶段的各个功能,并截图演示功能。

第五部分是整个论文的结束部分,总结本次课题研究经验和不足,并希望在将来对此做出完善。

2 整体分析与实现

2.1 可行性分析

在我们进行课题研究之前,我们首先会对其进行一个评估。根据设定的课题目标,考虑该目标实现的各方面需求,并分析我们现有的条件是否能够满足。总而言之,课题可行性分析的主要目的就是让我们在研究一个课题之前,以最小的代价在尽可能短的时间内确定问题是否能够解决。这就要求我们在前期要通过客观分析,权衡课题研究价值的利弊,从而判断课题设定的目标是否符合实际,考察课题研究完成后所得到的研究结果是否能够达到规划设定的目标。

下面从两个个方面进行可行性研究:

  1. 技术可行性:本课题“基于“PageRank算法的图像相关性分析与实现”是为了研究近重复图像的相关性,并根据所研究的图像相关性分析实现图像的优化排序。所采用的算法已经被广泛地使用,本人之前也了解过MATLAB,有一定的基础,即使遇到问题也可以查阅相关资料或者请教导师,因此技术上基本可行。
  2. 用户实用性:本课题研究的内容是为了给用户提供更高效的图片搜索结果,最终会给用户带来方便,所以实用性完全满足。

2.2 需求分析

明确本课题研究所需要的技术支持对我们而言很重要。所以在研究之前,我们需要了解图像SURF特征提取匹配,以及PageRank算法的使用。在课题研究之前必须对实际需求进行详细分析,这是因为课题的研究只有向着正确的方向前进,我们最终会达到预期的目标。因此只有准确的需求分析才能够更好地满足课题的相关需求,才能拥有更高的用户满意度。

本课题是基于PageRank算法在分析网页质量方面的使用而研究出的一个新的课题,课题需求分为三个部分,一是提取图片的局部特征SURF,并对其进行特征匹配得出匹配相似度的分析计算,二是使用PageRank算法进行迭代运算,三是由得出的迭代结果进行重新排序。

因为本课题研究的是图像的相关性,因此,我们要针对性了解图像的特征及其提取,注意对提取的特征进行过滤之后,设定阈值将图像集中的图片两两匹配,得出图像匹配相似度。然后我们借助使用PageRank算法分析图像相关性,因此我们需要详细介绍此算法。最后该课题需要完成生成新的图像排序表的功能。

2.3 功能设计

2.3.1 功能陈述

针对搜索引擎搜索图片产生的大量近重复图片,这样会使得搜索效率低下,本课题提出对这些近重复图像进行分析,得出它们之间的相关性,然后根据PageRank算法迭代计算,重新对图像集优化排序。在WINDOWS操作系统上使用MATLAB软件,提取图像的SURF特征进行分析相关性并得出相似度,使用PageRank算法对图像进行基于视觉内容的相关性分析,得出收敛不变的中心权值,并根据中心权值对图像集重新排序,以产生优化后的图片列表。

2.3.2 画图分析与设计

此课题的研究分为三个部分,一是提取和匹配图像局部特征SURF,二是使用PageRank算法分析图像相关性,三是生成优化的图像列表。

提取和匹配图像局部特征SURF可以细分为提取图像局部特征SURF,匹配图像局部特征SURF两个部分。主要负责将图像局部特征SURF提取提取出来,然后设定阈值将图像集中的图像两两匹配,得出两两匹配的相似度,然后由的得到的相似度值构成图像连接矩阵。

使用PageRank算法分析图像相关性,利用PageRank算法处理网页的原理,对上述得到的图像连接矩阵进行迭代运算得出收敛不变的的中心权值。

生成优化图像列表,借助于上个部分获得的中心权值重新排序,生成排序优化后的图像列表。

研究课题的整体实现如图2-1。

图2-1 课题研究框架图

2.4 课题研究环境

2.4.1 课题研究环境

系统支持:Windows10

软件支持:MATLAB

2.4.2 课题研究硬件配置

CPU:Intel(R)Core(TM)i3-3120M

内存:4.00G

硬盘:500GB

2.5 技术背景研究与分析

2.5.1 图像的特征提取

特征实际上没有十分精确的定义,特征的准确定义往往取决于具体问题和具体的应用类型。对于本课题而言,主要研究的的对象是图像特征。对于一个数字图像来说,特征是它的重要部分,因为特征对于许多计算机图像分析算法来说,具有最原始的效果。并且算法使用和定义的特征通常能够决定一个算法是否能够获得成功。所以提取合适的特征对算法来说至关重要。

特征提取,是指使用计算机对图像的信息进行提取,并且决定提取的每个图像的点能否被称为是属于这个图像的特征。根据定义,我们知道特征提取可以算作图像处理学科中的一个初级运算,也就是说,对一个数字图像进行第一步运算处理的就是特征提取。特征提取检查我们获得的每个像素,并确定该像素能否可以代表一个特征。

在特征提取之前,我们首先需要输入数字图像,接着可以通过在尺度空间平滑高斯模糊核,然后再通过运算局部导数来计算来自图像的一个或多个特征。由于特征提取作为许多计算机图像处理算法的首要步骤,所以发展出来大量的特征提取算法,于是各种各样的数字图像特征可以被提取出来用于运算。对于各种不同提取图像特征的算法,算法的计算难度和图像的可重复性也各不相同。针对目前的状况,本课题在研究各种算法的性能后,选择使用提取图像的SURF特征算法,以提高课题研究效率。

2.5.2 图像局部特征

图像局部特征描述在计算机视觉与图像处理学科中处于的基础地位,并且图像的局部特征在查找数字图像中的相对应点和图像特征描述中起着重要的作用。许多方法都是以此为基础的,所以图像的局部特征目前是计算机视觉和图像处理学科中的热点。于此同时图像的局部特征在其他学科处理中也发挥着重要的作用。举例来说,在使用多幅二维图像进行的三维重建或者恢复场景三维结构的应用中,首先需要有一个比较可靠的图像对应集合,然后发挥数字图像的局部特征的作用,自动地建立起图像中点与点之间的可靠对应关系。目前基于局部特征的图像处理非常流行,可行性较高。

不变性(鲁棒性)和可区分性作为数字图像局部特征描述的核心问题,需要引起我们的关注。我们使用图像局部特征描述子的目的,通常是想要鲁棒地处理解决各种图像变换的情况。所以我们在构建或者设计局部特征描述子的时候,首先需要考虑不变性这个问题。然而,对于局部特征描述子而言,它们的可区分性的强弱往往和不变性的好坏是矛盾的,即对于一个具有众多不变性的局部特征描述子而言,它处理区分局部图像内容的能力就稍弱,而对于一个非常容易区分不同图象局部内容的局部特征描述子而言,它的鲁棒性通常比较低。除了这个矛盾以外,当我们通过统计局部图像灰度直方图来进行特征描述时,我们发现这种描述方式具有较强的不变性,并且对于局部图像内容发生旋转变化等情况具有较高鲁棒性,但在区分方面能力不强,例如,对于两个灰度直方图相同但内容不同的局部图像块,无法进行区分。

剩余内容已隐藏,请支付后下载全文,论文总字数:21148字

相关图片展示:

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;