目标检测数据库的建立及应用

 2022-01-17 11:01

论文总字数:19776字

目 录

1 绪论 1

1.1 背景及意义 1

1.2 数据库结构简介 1

1.5 主要研究工作 3

1.6 论文组织结构 3

2 目标检测数据库的制作 3

2.1 候选图像采集 3

2.1.1 目标类别的选择 3

2.1.2 图像采集 3

2.2 图片标注 6

2.2.1 目标类别的标签 6

2.2.2 类别标注 6

2.2.3 实例分割 6

2.2.4 分割的结果检验 7

3 检测网络的原理与实现 7

3.1 区域建议网络 7

3.1.1 anchor的生成 9

3.1.2 损失函数 11

3.1.3 优化 11

3.2 区域建议网络和目标检测网络共享卷积特征 12

4 算法的实现与结果分析 13

4.1 实现细节 13

4.2 性能对比评测 14

4.3 区域建议方法的评测方案 14

4.4 召回率的研究 15

4.5 不同检测方法的对比 15

4.6 检测结果 16

5 总结与展望 17

参考文献: 19

目标检测数据库的建立及应用

方志文

, China

Abstract:Now, object detection networks depend on the progression of datasets and algorithms. The increase of pictures data on the Internet has the potential to generate more complicated and robust models and algorithms to index, research, organize and contact with images and multi-media data. But how such data can be utilized and organized remains an important problem. In this work,I introduce a new object detection database and design algorithm to detect it. My dataset contains 25000 photos of 15 object types. The detection network is a fully convolutional network and it also predicts object bounds as well as scores on account of each position. I use the end-to-end way to train it in order to create high-grade region proposals. I share convolutional features of region proposal networks and detection networks to merge them into a single network. It is a challenging task for me to finish such work. I hope that it can give researchers in the computer vision community and universities many opportunities to develop detection work.

Key words: Object Detection, Region Proposal, Convolutional Neural Network, Computer Vision

绪论

背景及意义

如今信息时代给我们带来了爆炸增长的数据。最近的一项调查显示,在著名图片网站Flickr上总共有近3.2亿图片,而在Google图片库中有更多的图片。我们可以通过研究这些图片数据来提出更精确复杂的模型与算法,这样可以让使用者更好地组织利用这些数据。但是,如何精确地收集,筛选,标注并最终检测这些数据则是一个问题。在这篇论文里,我引入一个新的目标检测数据库并设计一种算法来进行检测。我相信,这种新型的目标检测数据库能更好地推动图片搜索和图片识别方面发展,同时也为检测算法提供了训练样本和检测基准。

目标检测是隶属于计算机视觉的一个重要的组成部分,其核心就是视觉场景的理解。它涉及到很多任务,比如判断属于特定类别的目标是否存在,以及在二维和三维图像场景中确定目标的具体位置,表征目标与场景,目标与目标之间的关系。最主要的三个问题就是检测非标志性视角下的目标,如何处理目标与目标,目标与场景的逻辑关系。对于很多图片来说,目标的位置都太过标志性。例如:在图片搜索引擎中,输入关键词“手机”时,在搜索出来的图片中,目标都是处于中间,没有遮挡的位置。用这样的图片训练出来的检测算法尽管在训练集上有很好的表现,但在日常场景中表现糟糕,没有实际应用价值。因此,创建一个收集日常场景图片并标注好的目标检测数据库是很有必要的。

  1. 数据库结构简介

我的目标检测数据库主要包含15个类别,共计约25000张图片。它主要是以关键词的形式分类,这些关键词分别是人,轿车,巴士,狗,猫,船只,火车,鸟,飞机,马,沙发,摩托车,显示器,自行车,椅子。每个类别都有非常多的实例,这样可以更好地帮助使用者们更好地提升算法模型的精确度和实用性。另外,我的数据库一个更显著的特点就是每幅图片中被标注的实例数目比其它的数据库多得多,这样可以更有利于学习上下文信息和逻辑关系。

从2005年至今,许多公司或者研究团队为了更好地检测目标类别,都致力于创建并维护一系列能被广泛使用的数据库。最典型的就是PASCAL VOC 数据集[1],它共计包含了20个类别,用边界框标记了超过27000个实例,其中有近8,000个都被仔细地进行了分割。检测数据库能否在它们图片中更多地包含这些目标是非常重要的,这是因为检测多个物体高度依赖上下文信息。尽管在类别数量上,我的数据库无法和那些团队创建的数据库相比[2],但我尽可能地搜集那些包含多种上下文信息的图片,以此来在有限的数量中更多地包含实例数目。同时,我也使用边界框来进行标注。

  1. 检测网络的简介

目前人们都是改进区域建议框生成方法和基于建议框的卷积神经网络来推动目标检测算法进步的。然而,基于区域的卷积神经网络在刚提出时需要占用大量的计算时间上,但是后来人们使用了一种共享区域建议框间的卷积的方法[3],来尽可能地减少这种时间消耗。现在的大部分检测算法都可以使用非常深的卷积层来实现近实时检测的效果,然而它们都忽略了生成区域建议框的时间。现在,区域建议框的生成仍然是检测算法中的最费时的一部分。

剩余内容已隐藏,请支付后下载全文,论文总字数:19776字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;