基于点云深度学习的三维识别方法研究

 2022-05-01 09:05

论文总字数:46441字

摘 要

随着计算机视觉和深度学习的发展,基于二维图像的深度学习已经日渐成熟。但是为了获取对真实世界更准确的建模,三维数据是不可缺少的。点云作为三维数据的代表因为数据获取的便利性和数据信息的丰富性而被广泛使用。近年来直接将点云作为输入的深度学习网络也变得越来越多,为了应用和研究这些网络结构,本文主要围绕着三维点云的识别方法展开研究。本文的主要工作和内容如下:

1. 搭建了基于tensorflow的深度学习环境,实现了Pointnet,Pointnet ,DGCNN等三维深度学习网络的代码调试,成功实现了网络的训练,并分析和对比了它们在物体分类方面的表现;

2. 从数据本身的归一化方法和批量归一化相关的标准化方法入手,对上述深度学习网络进行了调参,确定了最适合点云的深度学习网络的数据归一化方法,并引进新的网络标准化方法,在Pointnet 的物体分类任务中取得了小幅的准确率提升;

3. 对 Pointnet网络进行改造,实现了新的应用:将分类网络Pointnet改造成了一个降采样的网络,能够实现稠密点云的有效稀疏采样;结合Kinect三维传感器,编写了可视化程序实现了场景语义分割,并将人脸的数据融入场景,初步尝试了三维场景中人脸的检测与分割。

关键词:深度学习,点云,分类

Abstract

With the development of computer vision and deep learning, deep learning based on two-dimensional images has matured. But in order to get a more accurate modeling of the real world, 3D data is indispensable. Point cloud as a representative of three-dimensional data is widely used because of the convenience of data acquisition and the richness of data information. In recent years, deep learning networks with point cloud as input directly have become more and more. In order to apply and study these network structures, PAN Dongping focuses on the recognition methods of 3D point cloud. The main contents of this paper are as follows:

1.A deep learning environment based on tensorflow is built and the code debugging of 3D deep learning network such as Pointnet, Pointnet , DGCNN is realized . PAN Dongping compeletes the training of the network and analyses their performance in object classification and scene segmentation.

2.Starting from the normalization method of data itself and the standardization method related to batch normalization, the above-mentioned deep learning networks are adjusted, and the normalization method most suitable for point cloud is determined. Also new standardization method has achieved a small increase in accuracy on Pointnet on object classification task;

3.PAN Dongping Transforms the Pointnet network and realizes some new applications: transforming the classification network Pointnet into a down-sampling network, which can achieve effective sparse sampling of dense point clouds; combined with Kinect 3D sensor, a visualization program is written to segment the scene. The data of the face is integrated into the scene, and the detection and segmentation of the face in the 3D scene is initially tested.

KEY WORDS: deep learning ,point cloud , classification,

目 录

摘 要 I

Abstract II

第一章 绪论 1

1.1 课题研究背景与现实意义 1

1.2 三维数据深度学习的国内外研究现状 1

1.2.1 基于2D深度图的识别方法 1

1.2.2 基于体素网格的识别方法 2

1.2.3 基于multiview CNN的方法 2

1.2.4 Pointnet网络 3

1.2.5 基于Pointnet网络结构的改进 3

1.2.6 其他基于点云直接输入的模型 5

1.3 论文主要内容与结构安排 5

1.3.1 论文主要内容 5

1.3.2 论文结构安排 6

第二章 点云数据及其深度学习网络 7

2.1 数据集 7

2.1.1 MODELNET40: CAD模型分类数据集 7

2.1.2 场景分割数据集SACNNET[34] 7

2.1.3 场景分割数据集S3DIS[35] 8

2.2 点云数据深度学习的难点 8

2.2.1 点云的特性 9

2.2.2 数据采集带来的难点 9

2.3 Pointnet网络[6] 10

2.3.1 Pointnet 网络的原理 10

2.3.2 Pointnet网络复现的实验结果 12

2.4 Pointnet 网络[7] 12

2.4.1 Pointnet 网络的原理 12

2.4.2 Pointnet 网络复现的实验结果 14

2.5 DGCNN网络[23] 14

2.5.1 DGCNN网络的原理 14

2.5.2 DGCNN网络复现的实验结果 15

2.6 本章小结 15

第三章 针对Pointnet相关网络的调参 16

3.1 标准化方法调参 16

3.1.1 标准化方法的基础 16

3.1.2 批量标准化 16

3.1.3 群组标准化 18

3.1.4 权重标准化 19

3.1.5 实验设计 22

3.1.6 实验结果与结论 22

3.2 数据归一化方法的比较 24

3.2.1 归一化的意义 24

3.2.2 零均值归一化 25

3.2.3 单位球归一化 25

3.2.4 MAX-MIN归一化 25

3.2.5 实验设计 25

3.2.6 实验结果与结论 25

3.3 本章小结 26

第四章 基于Pointnet的应用探索和实现 27

4.1 引言 27

4.2 基于Pointnet的下采样网络 27

4.2.1 网络修改 27

4.2.2 实现细节 29

4.2.3 下采样结果 29

4.2.4 实验结论 30

4.3 基于Kinect和Pointnet 的场景语义分割 30

4.3.1 编写测试可视化程序 30

4.3.2 验证可视化程序 31

4.3.3 Kinect采集点云 31

4.3.4 实验结果 32

4.4 人脸识别实验 33

4.4.1 人脸识别任务描述 33

4.4.2 人脸数据集FRGC 33

4.4.3 人脸数据集 bosphorus 34

4.4.4 组织数据集 34

4.4.5 数据预处理 36

4.4.6 FRGC实验结果 36

4.4.7 bosphorus实验结果 37

4.4.8 MODELNET40和bosphorus数据混合实验 39

4.5 基于Pointnet 的场景人脸识别 40

4.5.1 实验设计 40

4.5.2 数据集合成 40

4.5.3 分割网络的训练 41

4.5.4 人脸身份查找 43

4.6 本章小结 43

第五章 总结与展望 44

5.1 论文工作总结 44

5.2 论文工作展望 44

参考文献 46

致 谢 49

绪论

课题研究背景与现实意义

在过去的几年里,人们对2D图像的深度学习进行了大量的研究。得益于卷积神经网络的出现和大型2D图像数据集的开源(如imagenet[1]),2D图像的分类、分割任务取得了优异的成果。然而,2D图像信息会忽略了图像的景深信息,因此难以获取现实世界中物体三维结构性的信息,同时图像中的遮挡也会严重地影响2D方法的识别率。为了从现实世界中获取更加丰富,更加全面的信息,三维图像理解开始被关注和研究。

当今3D数据正在迅速地增长中,不管是通过人们在3D软件(如CAD)中人工设计3D模型还是通过各种传感器(如Kinect,RGB-D相机,LiDAR传感器)采集现实世界的三维数据,人们获取三维数据变得越来越容易的同时也为三维数据的深度学习奠定了一定的基础。结合现有的三维数据,配合深度学习工具,设计出能够处理、理解三维数据的网络就变得越来越重要。

剩余内容已隐藏,请支付后下载全文,论文总字数:46441字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;