OCR文字识别相关算法的研究与实现

 2022-01-17 11:01

论文总字数:22946字

目 录

1. 绪论 1

1.1 课题来源及背景 1

1.2 课题相关背景及国内外研究现状 1

1.2.1 课题相关研究背景 1

1.2.2 国内外研究现状 2

1.3 课题研究内容及论文组织结构 3

1.4 本章小结 3

2. 系统需求分析及相关开发工具介绍 3

2.1 需求分析 3

2.1.1 功能需求分析 3

2.1.2 界面需求分析 4

2.2 系统可行性分析 4

2.3 开发环境介绍 4

2.3.1 硬件环境要求 4

2.3.2 软件环境要求 5

2.4 开发工具介绍 5

3. 相关算法介绍 5

3.1 字符提取算法概述 6

3.2 字符分割算法概述 7

3.3 字符识别算法概述 7

4. 系统总体设计 7

4.1 总体结构设计 7

4.2 系统流程设计 9

5. 系统详细设计 10

5.1图片获取模块详细设计 10

5.2文字区域定位模块详细设计 11

5.3图片预处理模块详细设计 12

5.4字符切分模块详细设计 12

5.5 文字匹配模块详细设计 14

5.5文字识别模块详细设计 16

6. 系统实现 17

6.1 图像的预处理 17

6.1.1 灰度化 17

6.1.2 二值化 18

6.2 字符的分割 19

6.3 特征提取和模板匹配 20

6.4 训练器的设计和实际识别 21

6.5 字符的识别 21

6.5.1 中文字符的识别 21

6.5.2 英文字符的识别 23

6.6 总体效果展示图 24

7. 总结 25

参考文献: 26

致 谢 27

OCR文字识别系统的设计与实现

张笛

China

Abstract:With the development of Internet technology, people record instant messages typically require the completion of secondary phone when important text stored in the picture taken inconvenience extraction, this time on the phone side character recognition app development is urgent. The mobile terminal system development OCR text recognition system, in android studio development platform for the development of language development in java using tessactdata text library text comparison. System is mainly for office documents and under natural scene image scanning and text recognition, complete interception of the picture, the image gray and binary, text detection, positioning and segmentation, segmentation out for each character identification and the results show, has some practical value.

Key words: OCR; Photos’ interception; text detection; segmentation

1. 绪论

1.1 课题来源及背景

自从人类第一台计算机诞生以来,无数科学家用毕生精力研究与计算机相关知识,而让机器具备模式识别的功能就是科学家努力的一大方面。研究模式识别的目的在于生成能够替代人们对信息进行分类与辨别并自动处理的机器系统。模式识别技术对人类生产生活和科学研究具有重要意义,并且已经广泛应用于许多领域。而随着科学技术的进步和对人工智能、思维科学领域的不断探索,模式识别技术也在朝着更高层发展。人们正在探索怎样用计算机系统来解释图像以实现用类似于人类的视觉系统来理解世界,到目前为止已经取得了重大成果,而文字识别即是其中之一。文字识别是有关模式识别的一个典型问题,具有强大的应用背景和市场需求,因此对文字识别的研究具有重大的现实和理论意义。

伴随互联网应用的普及,人们更多的用手机等移动设备作为备忘工具。例如:看见某次紧急通知,通常会第一时间想备忘在手机中,此时若用拍照的方式来保存,虽然方便快速,但因为需要的信息都在图片里而不能被直接识别,不适于对信息的保存和处理,但传统打字录入费时又费力,体现不了互联网的快速便捷。若有一个系统能够识别图片中的文字,就能将以上两种方法的优点加以结合,使文字的识别既快又好。因此,开发一套支持以上功能的系统非常有必要。

本课题致力于研究OCR文字识别技术的实现与发展,着重解决Office文档扫描件的输入与识别,使能不使用键盘也能输入汉字,提高工作效率。

1.2 课题相关背景及国内外研究现状

1.2.1 课题相关研究背景

从50年代就开始探讨一般文字识别方法,到目前为止OCR文字识别技术目前已经初具规模,并且市面上已经出现了许多有类似功能的软件,基于要研究的课题基本状况,所以在研究之前就在网上下载了一些软件来了解并且总结了它们的优缺点,详细都见表1-1。

表 1-1 目前的文字识别软件对比

软件名

功能

优点

缺点

名片全能王

自动识别拍摄的名片信息

可以精确的对名片进行识别,能节省大量时间

只能够进行名片识别

SOSO慧眼

拍摄识别条形码和二维码

简便,交互性好且功能多样

文字只能单字识别且只能识别一次

拍译全能王

拍摄识别、翻译

简便,交互性好

只能识别单字

涂书笔记

拍摄识别

可进行多文字识别

当字符量大时识别率低

结合表1-1的基本结果可以知道目前的文字识别技术虽然基本成熟,但市场上的好多相关软件的质量都参差不齐,并且功能都有一定的限制,其中一些软件只能够进行单字的识别,而另一些能够进行多文字识别的识别软件,其识别率却比较低,目前还很少有既能够达到支持多文字识别又能够保证识别率达到一定标准的软件。即虽然这些相关的产品赈正在被使用,但它们中大多数功能都比较单一,不够全面,不能满足不同客户的各种需求。基于此状况,系统的目标是实现一款能够基于智能终端的文字识别软件,既能实现需求中的对Office文档的扫描件的识别,又能实现自然场景中文字的识别,使识别率、识别速度和可适用性都能满足人们的需求。本软件还应当能够实现对拍摄原图的保存和识别结果的保存,以供用户在查询历史结果时的对比。

1.2.2 国内外研究现状

六、七十年代开始,OCR的研究就已经在世界各国进行,而初期主要研究文字的识别方法,且仅仅识别数字0—9。

20世纪70年代初开始,日本学者对汉字识别做了大量研究工作。由于我国在计算机方面起步较晚,所以数字及英文符号的识别在70年代才刚刚开始,对汉字的识别到了70年代末才起步,而到了80年代对汉字识别的研究才进入实质性的发展阶段,在这期间,也有不少组织机构和研究单位退出了自己的识别中文的OCR设备,但由于当时硬件设备和软件环境的各方面的原因,当时的产品识别率并不能有效实现文字的实际转化,所以当时使用还不普及,只有少数机关部门及新闻媒体才会使用。但自1986年后我国OCR技术的研究有了飞速发展,在技术层面都实现了创新并且取得了喜人的成果。而自信息化时代的到来,打印机、扫描仪等办公设备自动化的不断普及,极大程度的推动了OCR文字识别技术的深入发展,使得OCR(光学字符识别)的识别率和识别速度能够基本满足用户需求,并且使用越来越广泛,现在已深入应用到企业、学校和医院等各大场所。

1.3 课题研究内容及论文组织结构

文字的自动识别是模式识别的一大重要领域,对文字的采集、提取和匹配是文字识别的重要工作。识别的关键是将待识别的文字准确定位并且切分。为了提高文字识别效率,使实际识别的过程能更加快速且准确,本课题研究实现手机端文字识别系统的设计。在预处理阶段对待识别的图片进行处理,去除图像的背景将噪声对后续过程中文字识别的影响降到最低。由于Office文档固有不变性,对其处理没有灰度化和二值化的步骤。对于有自然背景的图像,在光照角度的影响下,先去除图片带有的色彩和其他背景,此时使用灰度化、二值化和降噪来进行图像处理。在深入分析和比较了目前存在的研究方法后,使用基于加权平均法的灰度化算法和基于迭代思想的二值化算法。在预处理阶段完成后对整段文字进行字符分隔,本系统的使用的是基于垂直投影方法的分水岭算法,使文字便于识别处理。在字符切分完成后,就需要对文字进行识别,识别算法用的是基于VTD、HTD字符识别的方法。

本篇论文的组织结构及主要内容设计:

第1章 绪论。介绍本课题的来源、相关背景并对现有的相关软件进行对比,分析他们的优缺点,并探索国内外研究现状,总结性的概括介绍了本论文的主要工作内容。

第2章 系统需求分析及相关开发工具介绍。对基于Android平台的文字识别系统的需求、开发环境、Java语言的应用及在设计过程中的关键技术进行了简单的阐述。

第3章 相关算法介绍。该章节主要讲述系统相关的算法,从文字识别的基本算法由浅入深阐述各个步骤的详细算法。

剩余内容已隐藏,请支付后下载全文,论文总字数:22946字

相关图片展示:

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;