基于K-匿名模型的个人隐私保护技术的研究

 2022-01-17 11:01

论文总字数:14868字

目 录

引 言 1

一、匿名隐私保护模型 2

1.1.概念及定义 2

1.2.K-匿名模型 2

1.3. 数据质量度量 4

二、基于空间划分的隐私保护关系型数据发布算法 5

2.1.二划分技术 5

2.2.概化技术 6

2.3.K-ASPDP算法(基于子空间划分) 8

2.3.1.算法描述 8

2.3.2. 核心代码 8

2.4.Bottom-UP算法 9

2.4.1.算法框架 9

2.5.严格划分与非严格划分 11

2.6.Hybird Recoding 12

2.6.1.算法描述 12

2.6.2.算法框架 12

三、实验结果与分析 13

四、总结 19

五、讨论 19

参考文献 21

致谢 22

个人隐私保护技术的研究

孙亮

, China

Abstract: As the Internet gets more and more deep in people's life, the two major technologies of data mining and data publishing have also come into being. But these two technologies have brought great threats to the security of personal privacy.Accordingly, the emergence and development of personal privacy protection technology have also been brought up. Among them, the algorithm based on K- anonymity model is a hot research direction. In this paper, the implementation mechanism of several algorithms based on K- anonymity model is expounded and compared.

Key Words: K-anonymity; Data Publishing; Multidimensional Division; Dynamic Programming

引 言

数据挖掘(Data Mining),又被称为资料勘探、数据采矿。数据挖掘是对数据库知识进行发现的一个步骤。数据挖掘指从大量的数据中通过算法搜索隐藏于其中信息的过程,这个步骤最终结果的优劣由是否拥有高可用性的质量数据决定。从另一角度讲,在人们的日常生活中,有许多公司或组织需要定期对外发布数据。比如股市需要定期发布股票行情,高等院校要向外发布科研成果,等等。近十年来,随着科学技术,尤其是计算机技术的飞速发展,人们迎来了大数据时代,对数据的收集与分析变得越来越便利。然而,这也对人们的个人隐私安全造成了重大威胁。例如,通过对个人医保信息的挖掘,可以了解到某一个病人是否患有某种重大疾病,这一过程就对病人的个人隐私造成了侵犯。有研究指出,通过邮编,性别,生日等准标识符对选民登记表与隐藏了个体标识的医保信息表单进行连接操作,超过八成的美国公民的个人身份信息可以被辨别出来[4]。所以,如何对数据发布过程进行数据保护成为了研究重点。

对数据发布的隐私保护技术一直是研究的热门,先后出现了数据扰乱、数据加密、数据匿名等技术。数据扰乱是通过在原始数据中添加噪声的方式来进行随机扰动;而数据加密则通过隐藏敏感数据的方式来保护隐私,但由于其成本过高而应用不多;而以K-匿名模型为基础的数据匿名发布技术在能保证其数据的安全性的同时,确保了数据本身的真实性,所以成为了学术界研究的热门。

本文将介绍几种基于K-匿名模型的算法,对它们的实现机制进行阐述与分析比较,并简要介绍当前匿名隐私保护的主要研究方向以及未来隐私保护数据发布的研究热点。

一、匿名隐私保护模型

1.1.概念及定义

在说到匿名隐私保护模型时,我们需要引入以下4类属性[5]

  1. 显示标识符(Explicit Identifier,ID):能够被唯一确定的一个元组,该数组在发布前应该被剔去。拥有一般性。一个元组一般可认为对应一个个人数据。
  2. 准标识符(Quasi-Identifier,QI):可以通过其他方面的信息,有较大可能辨识出目标对应记录的最低属性集合。
  3. 敏感属性(Sensitive Attributes,SA):必须被隐藏的数据信息。如社保账号,家庭住址等。
  4. 非敏感属性(Non-Sensitive Attributes,NSA):可以被公布出来的,不是隐私的信息集合。

由于我们要对发布的数据进行数据分析,所以应该留存表中的敏感信息。所以一般情况下我们只删除数据表中的显示标识符。但是就算所有的显示标识符全部被删除,仍然存在个人隐私泄露的可能,通过背景知识攻击等方法依旧可以获得某个人的个人隐私数据。

1.2.K-匿名模型

若用T(Q1,Q2,……,Qd,S1,S2,……,Sm)来定义一个等待发布的数据表,简称为T(d)。其中,d是准标识符的个数,m是敏感属性的个数。非敏感属性可直接发布所以并不作考虑。

K-匿名机制要求表中的每一条记录至少和其他k-1条记录在Quasi-Identifier上相同。令为表T(d)在属性集合QI上的投影,表T(d)在属性集合QI下满足K-匿名机制,当且仅当中的任意一条记录至少重复出现k次。在运算符下,有相同QI值的所有记录为一个匿名组。对于已经确定的k,每一个这样的匿名组可以变为一个K-匿名组或QI组,也可称之为Equivalence Class。

K-匿名机制中,应用较多的方法是概化(Generalization)与抑制(Suppression)。

剩余内容已隐藏,请支付后下载全文,论文总字数:14868字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;