基于深度学习的图像文本识别研究

 2022-01-17 11:01

论文总字数:21751字

目 录

1.绪论 1

1.1.研究背景及意义 1

1.2.研究现状 2

1.2.1 自然场景文字处理流程 2

1.2.2.基于字符的识别  2

1.2.3. 基于整个单词的识别 3

1.2.4 现有方法存在的问题 3

1.3.论文内容 5

2. 网络架构 5

2.1.CNN(卷积神经网络)架构介绍 5

2.2.CRNN(卷积递归神经网络)介绍 6

2.3.提取特征序列 7

2.4.序列标签 8

2.5.转录 9

2.5.1.标签序列的概率 9

2.5.2无词汇转录 10

2.5.3 基于词典的转录 10

2.6. 网络训练 10

3.实验 11

3.1.实验细节 11

3.2.实验过程 13

3.3.实验效果展示 14

4. 总结 15

参考文献 16

致谢 19

基于深度学习的图像文本识别的研究

胡冰涛

,China

Abstract:The recognition of texts in images has always been a subject for long-term research in the field of computer vision. In this paper, we study the text recognition of natural scenes. This is one of the most difficult and challenging tasks in image text recognition. We have adopted a relatively new neural network structure that integrates feature extraction, sequence modeling, and transcription into a unified framework. Compared with other natural scene text recognition systems, the framework adopted this time has its unique four characteristics: (1) Compared with most existing algorithms, it is end-to-end trainable, components do not need Individual training and coordination. (2) It can handle text sequences of any length and does not require pre-segmentation of characters and the specification of horizontal scales. (3) It is not limited by any pre-defined vocabulary and can achieve significant performance in both characterless and character-based scene text recognition tasks. (4) It generates a more efficient but smaller model, which is more practical for practical application scenarios.

Key words:image sequence identification,the end-to-end,neural network structure

1.绪论

1.1.研究背景及意义

文字,作为信息交互和传递的重要载体,从它被人类发明出来到现在,在人类的交流,信息的交互方面发挥着举足轻重的作用。而文字信息作为一种最常见的信息在我们生活的现实环境中随处可见,并且在许许多多由摄影设备拍摄的图片中都存在,举个例子,比如说交通标识牌、广告展板、横幅、LED电子屏等等,将这些图片中的文字识别出来,在各行各业的很多领域都能够很好的帮助到人类的生产生活,并且在计算机识别图像任务中有助于计算机理解图片的整体内容和含义。可是,怎样能够将这些图片中的文字识别出来并且整合成具有确切含义的语句,再将其作为信息的载体传递出去,是研究计算机图像问题和视觉领域的科学家们多年以来一直在尝试解决的问题。正是因为图像文字识别小至人类的日常生产生活,大到计算机视觉领域的研究都有着举足轻重的意义,所以文字识别技术在近几年来受到了越来越多的关注。现有的一种较为通用的文字识别技术被我们称之为OCR,它能够比较好的完成识别任务,可是同时它的局限性也表现的十分的明显:OCR技术只能处理背景简单的文字图片。可是在实际生活应用中,待识别的文字图片往往直接是由成像设备直接捕捉自然中的场景,这类图片的背景复杂并且有很多例如光线或者角度之类的影响因素,如果直接将此类图片作为输入端使用OCR技术进行识别,OCR技术并不能够胜任此项任务,因为识别出来的误差会相当大。因此,自然场景文字识别技术研究的意义在此刻就显的尤为的重要,对于此类问题的需求也就显得更加的迫切。

传统的光学字符识别技术针对的对象是高质量的文档图像,此项技术要求输入图像的文字排布要整齐、字体要简单且背景要单一,在满足这些前提条件的情况下才能够达到很高的识别精度。同识别文档中的文字不同,以自然场景为背景的图像,存在背景复杂、分辨率低、字体风格多样、分布位置不均等一系列的问题,传统的光学文本识别无法应用于该类图像。还有一个难点在于,想要识别背景是自然场景的图片,你需要做的第一件事是确定图片中待识别文字的位置。只有定位好文字位置之后才可以开始进行后续识别等一系列的操作。

深度学习是在机器学习的基础上又扩展出来的一个新的学习方式,它的思路是想要构造一个和人脑处理机制相同的神经网络来进行数据的处理。深度学习是一种可自主学习的方式,它采用分层的思想,将输入的数据通过从下至上,由底层到高层的一步一步的处理,分级提取数据特征。它的出现不仅解放了人力——不再需要人工进行特征定义和提取,还显著的提高了识别准确率,在识别效率方面也有很大进步。

本文主要对复杂背景的英文文本识别的方法进行研究。算法以已经精确定位的自然场景文本图片为输入,目标是能够准确快速地对输入图片中的文本进行识别,并且能够表达其中的正确语义。

1.2.研究现状

对于自然场景中的文字识别的研究具有非常重要的理论意义和参考价值。在交通、工业、教育、国防等很多的领域中都具备极为广泛的应用价值。由于待识别的文本图片直接取材于真实的环境,所以其复杂的背景和多种多样的文字风格以及光线、角度等影响因素都会给场景文本的识别精确程度带来极大的考验和挑战,同时,图片整体的像素和分辨率也会因为拍摄时光线的强弱以及拍摄器材的好坏而大相径庭。

近几年,人们针对场景文本识别问题的解决方法主要有两种,一种是从特征提取的角度尝试改进,另一种是基于词典对初次识别过后得出的结果进行二次修正。这两类算法有一个显著的共同点,那就是它们都是先人工选中图片中需要识别的文本,然后对待识别文本所处的区域进行裁剪,最后再使用HOG等算法提取图片特征,训练分类,识别最终结果等。但是这两种算法的差异性也体现的很明显,前者的改进思路和角度是加强特征提取算法的精度或提出一种更科学的特征提取算法,特征提取更加准确,那么文本识别的精度自然就提升了。后者的侧重点则为识别后的修正步骤,这类算法在识别的后续过程中加入纠错与修正的步骤,从根据上下文本保证语义信息准确的角度提高了文本识别的精度。

1.2.1 自然场景文字处理流程

自然场景文字的处理流程主要包括两个方面:文本定位与文字识别。

文本定位的主要功能为:定位待识别的文字在输入图像上的确切位置,并且将含有待识别文字的区域从起始图像中分割下来。

文字识别的主要功能为:针对分割出来的文字区域图像,再进行文字的识别

文字识别流程:

1)预处理:去除噪点(滤波算法)、文字图像区域增强、缩放待处理图像。这几个步骤的作用是能够去除图片的背景或者噪点,降低对识别准确程度的影响,并且突出文字部分,使文字部分区域的图像显示更加清晰准确,最后对处理过后的数据做归一化的处理。

2)特征抽取:常用特征:边缘特征、笔画特征、结构特征

3)识别:分类器,随机森林 、SVM、NN

1.2.2.基于字符的识别 

K Wang , B Babenko , S Belongie等人在2011年提出,他们学习了一种在计算机图像领域常用的对象检测方式,在文本识别问题上有了新的突破[2]。他们以字符置信度和序列间字符的空间约束,给出可能性最大的识别结果。但是这类算法只能用来识别基于水平方向上分布的文本。

在2013年,O Alsharif , J Pineau[3]和A Bissacco , M Cummins , Y Netzer , H Neven[4]等人使用二分类技术和分类器,来分割单词图像中存在字符的区域。

M Jaderberg , A Vedaldi , A Zisserman[5]等人于2014年使用文本分类器、字符分类器等,使用滑动窗口大量的对图片扫描。最后结合固定词典,分析图片中的字符。

基于字符的文本识别技术十分依赖字符分类器,需要先使用它对图像进行逐个字符的识别,然后将识别得到的字符进行整合梳理,最后得到图像中的整个单词。

1.2.3. 基于整个单词的识别

A Mishra , K Alahari , CV Jawahar[6]以及T Novikova , O Barinova , V Lempitsky , V Lempitsky[7]的工作依然无法摆脱对显式的分类字符器的需要,但不同的是它是先完成一个结构图,然后再通过这个图结构来推导单词。

 A Mishra , K Alahari , CV Jawahar[8]等人以一整张文字图片作为识别对象:他们参照事先准备好的单词图像对特征图进行比对,然后求出动态K的近邻,再判断图片中的单词。该方法需要一个固定词典,并且需要预先生成一张用于比对的单词图片。

J Almazán , A Gordo , A Fornés , E Valveny[9]对单词编码做了深入一步的研究,他们创造了一个基于图像和字符串的编码空间。

剩余内容已隐藏,请支付后下载全文,论文总字数:21751字

相关图片展示:

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;