PDF隐藏信息检测技术研究

 2022-01-17 11:01

论文总字数:20632字

目 录

第1章 绪论 1

1.1 信息安全与信息隐藏 1

1.2 信息隐藏及隐藏信息检测的历史与现状 2

1.2.1 传统信息隐藏技术 2

1.2.2 现代数字信息隐藏技术 2

1.2.3 隐藏信息检测技术 3

1.3 本文的主要工作 4

1.4 本文的大纲 4

第2章 信息隐藏与隐藏信息检测技术简介 4

2.1 信息隐藏技术简介 4

2.1.1 信息隐藏概述 4

2.1.2 信息隐藏模型 5

2.1.3 信息隐藏特性 6

2.2 隐藏信息检测技术简介 6

2.2.1 隐藏信息检测技术概述 6

2.2.2 隐藏信息检测模型 7

2.2.3 隐藏信息检测算法特性 7

2.3 相关的应用领域 7

2.4 文本信息隐藏的特点 8

2.5 常见文本信息隐藏算法 8

2.5.1 基于格式的文本信息隐藏 8

2.5.2 基于语义的文本信息隐藏 9

2.5.3 基于语法的文本信息隐藏 10

第3章 基于PDF的隐藏信息检测 10

3.1 引言 10

3.2 PDF文档简介 10

3.2.1 PDF文档概况 10

3.2.2 PDF文档物理结构 11

3.2.3 PDF文档逻辑结构 14

3.3 基于PDF存储结构的信息隐藏算法及其检测算法 15

3.3.1 交叉引用表内信息隐藏方法 16

3.3.2 对象内插入注释的隐藏方法 17

3.3.3 对象间插入信息的隐藏方法 18

第4章 基于PDF的通用隐藏信息检测算法 19

4.1 通用的检测方法 19

4.2 实验与结果 19

4.2.1 实现过程 19

4.2.2 统计结果 20

4.3 小结 21

结论 21

参考文献 23

致谢 24

PDF隐藏信息检测技术研究

朱孟兴

,China

Abstract:Information hiding is an important subject in the field of information security. Information hiding based on text carrier is widely used, while there are few researches on information hiding based on PDF documents. This paper mainly studies the hidden information detection based on PDF documents and realizes a common detection system for information hidding algorithms based on PDF logical storage structure. At the same time,to embed information of the samples and test. The test results show that the system has high success rate in detecting information hidden based on PDF logical storage format like information hidden in cross-reference table, annotation between or in objects and hidden information between objects. Miss and false alarm rate are low.

Key words:Information hiding;Hidden information detection;PDF document

第1章 绪论

1.1 信息安全与信息隐藏

自通信交流诞生起,其安全问题就受到越来越多的重视。古代有多种常见方法来确认通信安全,如暗语、印章等,可以认为是现代密码和水印的前身。现代计算机及网络相关技术快速发展,现代的信息隐藏技术手段也得到进一步发展,借鉴古代常用的手段,电子文档载体的安全性研究也得到进一步发展,加密、数字水印等皆是现在的主要手法,但单纯的加密技术和水印技术无法满足快速增长的应用需求。在网络发达的现代,每日都有大量的信息在网络上流动,任何人都可以轻易地上网发布信息,也可以随意截取被公开发布在网络上的信息,进行篡改乃至再次发布。相应的,信息安全问题,以及版权问题等必然需要进一步重视,信息的隐秘、防伪、保密等特性受到人们的高度关注。

图1-1 信息安全的基本模型

信息安全的传统技术为加密技术。加密技术在于数据保密方面的应用相当优秀,而与此同时其在版权保护和隐秘通信等方面的应用并不尽如人意,不能满足日益增长的需求。而作为顺应需求诞生的新兴的安全技术,数字信息隐藏技术则相对而言应用面较广。数字信息隐藏技术将隐秘信息嵌入到非秘密的普通数字文档载体中,因嵌入过程中不会引起明显变化,使信息难以被发现。攻击者很难直接锁定目标,而接收方根据约定的方式可提取出需要的信息,很好的提高了信息的安全性。信息隐藏技术要求嵌入的信息有可持续性和能被重新提取的特性,以达到安全性或版权保护的目标,所使用的载体通常是现在的各常用格式文档。在实际应用时,可以与加密技术进行结合,进一步提高目标信息的安全性。相对单一的加密技术而言,隐藏信息的提取,由于嵌入手法的多样性,提取的方式也不尽相同。嵌入时必须保证该手段嵌入的信息是持久的,可提取的,才能使用约定好的提取方式进行提取。因其需要锁定目标并进行提取,提取的信息还可加密,比起单独使用加密技术大大强化了安全性和隐蔽性,在实际应用中效果显著。

基于文本载体的信息隐藏是信息安全的一个重要分支,大量文本载体的使用使文档载体信息安全问题突出。PDF作为常用文档之一,获得的关注和研究相对其他文档而言较少。

1.2 信息隐藏及隐藏信息检测的历史与现状

1.2.1 传统信息隐藏技术

信息隐藏技术的思想来源于古代隐写术。如早期不可见墨水、微缩胶片、藏头诗等,均是隐写术的应用,说明信息安全从古至今一直受到相当程度的重视并被不断发展。而后较为系统的研究也随着时代变迁不断推进,第一部综合描述隐写术的著作由Johannes Trithemius完成于1499年。1983年,Simmons提出“囚犯问题”,后发展为信息隐藏的标准模型,为现代数字信息隐藏技术服务。

图1-2 囚犯模型

囚犯问题主要描述两个囚犯如何通过狱卒这一不安全信道进行通信并制定越狱计划成功越狱的问题,即如何利用不安全的信道进行隐秘通信,这也是信息隐藏技术面对的主要问题。

1.2.2 现代数字信息隐藏技术

数字信息隐藏技术,以数字文档为载体进行信息隐藏,起源于数字水印技术,而后有多个分支,在确立后作为重要课题进行研究。1954年,出现第一个电子水印;1992年,国际上正式提出信息隐形性研究;1993年,信息隐藏技术登场;1996年5月,第一届信息隐藏学术研讨会正式在英国剑桥大学(University of Cambridge)召开,会议上规范了相关术语,新学科信息隐藏正式诞生。之后大量的相关研究得以进行,丰富的研究成果不断出现。

信息隐藏的早期研究主要集中于各种具有丰富冗余数据的图像载体进行,提出了大量基于图像的隐藏算法。文献[15]中综述了如空域替换方法中包含的的LSB方法、直方图平移、差值扩张等,变换域方法中的DCT、NSCT等隐藏算法,压缩域方法中的JPEG、JPEG2000压缩域隐藏算法,频谱扩展方法中的扩频隐藏技术,以及其他如基于人类感知模型的隐藏能量约束、自适应方法的应用等,都是基于图像载体的信息隐藏研究得到充分发展的成果。基于图像载体的信息隐藏利用微量的修改操作对人眼不可见的透明特点,和数字图像的大量冗余数据的特点,可使用丰富手法进行信息隐藏,达到隐秘通信或是版权保护的效果。

图1-3 信息隐藏的分支

同时,以其他数字文档为载体的信息隐藏研究也得到推动,如数据库、音视频、软件、文本等载体的水印算法均得到研究推进,成果颇多,很好地满足了安全需求。其中文本文档使用普遍,信息隐藏技术的应用价值颇高。但由于其冗余信息量少,可嵌入的信息量根据算法偏差较大,使得文本信息隐藏研究进展相对其他进展较慢。文本信息隐藏的基础手法基于格式、语法、语义三个角度对文档进行修改,以进行嵌入,或根据格式化文本文档的物理或逻辑存储方式进行进行。其他的手法,可以视作在这基础之上的发展。

1.2.3 隐藏信息检测技术

信息隐藏技术的发展迅速,应用广泛。针对性地,隐藏信息检测技术成为另一个与之相对的重要研究方向,以进一步促进信息隐藏技术的发展,以及对信息隐藏技术的滥用和非法利用进行防范。军事上,各个国家政府利用信息隐藏技术进行谍报与反谍报活动;恐怖分子、地下组织等也利用信息隐藏技术通过网络进行活动;在艺术作品上,需要利用检测技术来判别版权问题。为提高信息安全以及保护版权等,隐藏信息检测技术受到广泛重视,得到了很大发展。

隐藏信息检测技术对可疑载体进行数据分析,根据分析结果给出一个判断,如是否含有隐藏信息,含有何种隐藏信息等,而后可以尝试进行提取和解析。其与信息隐藏相对应,是密码学、软件工程、算法设计和分析、程序设计等多个重点学科的交叉研究领域,研究价值不可小视。国内外大多数进行信息隐藏技术研究的机构都显示了对隐秘信息检测技术的关注,而发展早期公开的文献较少,屈指可数的文献零星来自多个机构,如美国的宾汉姆顿大学和理工大学大学,加拿大麦克马斯特大学,土耳其乌卢达大学等。文献[2]中提到国内研究成果零散的来自多方,如夏煜等提出了基于图像的信息隐藏与检测技术的知识体系,提出了一个面向网络应用的检测模型。周继军等设计了伪自然语言文本段信息隐藏检测算法,并给出了算法的人工模拟测试结果。而上述研究大多是基于图像载体隐藏信息检测,或是仅仅针对某一种隐藏算法,而基于文本的通用检测算法较少。

1.3 本文的主要工作

网络上常用的文本载体多样,其中最常用的如txt,word,PDF,网页文档等,而其中PDF近年来被更加广泛地使用,如参考资料、杂志、学术文献等都大量使用PDF文档,甚至金融方面电子合同、报表等也经常利用PDF文档,其安全性问题同样值得重视,而与此相对的信息隐藏研究却较少。

基于以上情况,本文简单介绍PDF文档的物理结构和逻辑结构特性,主要研究基于PDF的信息隐藏,实现一个对基于PDF逻辑存储格式的信息隐藏较通用的PDF隐藏信息检测系统,并选取一些PDF文件样本嵌入信息并进行检测测试以检验和完善系统。

剩余内容已隐藏,请支付后下载全文,论文总字数:20632字

相关图片展示:

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;