基于图像处理的汉字识别研究

 2022-01-18 12:01

论文总字数:17242字

目 录

1绪论 1

2手写体汉字识别系统设计 3

2.1总体框架 3

2.2 汉字识别算法设计 4

3图像预处理 5

3.1图像灰度化 5

3.2二值化处理 6

3.3 图像平滑去噪 8

3.4归一化处理 10

3.5旋转矫正算法 12

3.5.1 霍夫(Hough)变换 12

3.5.2 Radon变换 13

3.5.3 两种变换的比较 13

4分类识别 15

4.1模板匹配 15

5.实验测试 18

5.1印刷体汉字 18

5.2手写体汉字 19

6 图形用户界面的设计 21

7结论 22

参考文献: 23

致谢 24

基于图像处理的手写汉字识别研究

汤云花

,China

Abstract:Handwritten Chinese character recognition is an important skill in the realization of computer intelligent interface, which is used for human-computer interactive data entry. It has outstanding applications in document automatic input, document automatic translation, document scanning and so on. In this paper, Chinese character recognition is studied. Based on image preprocessing and Chinese character template set, you image matching method is proposed to realize Chinese character recognition. The image preprocessing compares different denoising methods and skew correction algorithms so as to select the best method to extract the Chinese character template and adopt different normalized transformation according to the different situations of common Chinese characters. The image processing mentioned in the text has been successfully implemented. After the recognition of different objects for different fonts, the accuracy is high.

Key Words:Image processing; classification recognition; Chinese character recognition

1绪论

现如今,随着第三次工业革命,计算机越来越普及发展深入到人们的生活中以及工作中。互联网的迅速发展,使得信息技术的传播由纸张化转为电子化,甚至开始超越书本纸张,成为信息传递的重要手段。在现实社会的很多场景中,我们需要识别手写汉字来完成相应的工作,例如文献内容的录入,文献的翻译,单据的收发,文件的署名等等,但是手写汉字由于不同对象的不同书写风格以及相同对象的不同书写场景等等,使得手写汉字的识别和录入的困难也成为人们完成工作的瓶颈。

通常的汉字识别研究中,根据研究对象来进行分类,即分为印刷体汉字识别和手写体汉字识别,手写体汉字识别又可以依据汉字书写后进行识别的传播媒介不同,分为联机手写体汉字识别和脱机手写体汉字识别。如图1-1所示:

图1-1汉字识别的分类

在汉字识别的过程中,就拿印刷体汉字识别与手写体汉字识别相比较,印刷体汉字识别则较为简单,因为他有一定规则的书写规范和书写格式。联机手写体汉字识别是人们在与计算机相连接的设备上进行汉字书写,他主要是根据汉字本身的不同来加以识别,比如笔画的不同组合,转折位置的不同等等因素进行识别,而手写体汉字识别是根据对样本图像的一系列处理来进行识别,它能提取到的汉字特征比较少,识别也相应的较以上两种汉字识别而言也较为困难。又因为汉字本身的基数大,组合复杂,书写不规范,连笔潦草以及书写对象的不同风格等原因,进而也加大了我们对于手写体汉字识别的困难,因此在现实社会中,我们对于脱机手写体汉字识别的研究是极其重要的。

由于计算机的迅速普及以及信息技术的普遍应用 ,人们对于通过计算机来识别汉字这一课题的研究也越来越迫切。对汉字识别的不断深入研究,不仅能不断开拓人们的阅读,增加知识的储备,实现了资源的共享,推进了世界村的实现可能。在工业方面,汉字识别技术的推广使用更加能给经济带来巨大的效益。

近年来,对于手写汉字的识别已经成为国内外的研究热点,在上个世纪60年代,美国开始开展对于印刷体汉字的模式识别研究的工作,成功使用用模板匹配法识别出1000个印刷体汉字,并于1966年首次发表了基于汉字识别相关的论文,也就是在这个时候,学术研究界对手写体汉字的识别也掀起了前所未有的高潮。又因为汉字在日语中有一定的地位对其也有一定的影响,随后日本也开始了汉字识别的研究,日本的研究人员随后开发了一套模式识别系统用来识别印刷体汉字,1977年,这套识别系统趋渐成熟,对于单个印刷体汉字的识别就可多达2000多个,几年后又研发出一套关于印刷体汉字识别的装置,其识别率可高达99.98%,识别单个汉字的时间只需花费100秒。

我国对于汉字识别的研究则起步较晚,大致可分为以下三个阶段:1979-1985为探索了解阶段,1985年,我国提出可以识别两种不同字体的汉字识别系统。1986-1988为科研开发阶段,1986年我国研发的用来识别印刷体汉字的系统可以识别多达6763个汉字。从那以后,我国对于汉字识别技术的研究一直在稳步发展,在对于印刷体汉字识别以及联机手写体汉字识别研究方面,我国已经研发了较为成熟且推广较好的一些产品。但是对于手写体汉字识别的研究,我们还要做出更大的努力。

剩余内容已隐藏,请支付后下载全文,论文总字数:17242字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;