基于FP-tree的关联规则算法的研究与应用

 2022-01-17 11:01

论文总字数:24647字

目 录

第一章 绪论……………………………………………………………1

1.1 数据挖掘的定义…………………………………………………………………………1

1.2 数据挖掘的主要步骤……………………………………………………………………1

1.3 数据挖掘的主要任务……………………………………………………………………1

1.3.1 数据预处理………………………………………………………………………1

1.3.2 关联规则…………………………………………………………………………2

1.3.3 分类和预测………………………………………………………………………2

1.3.4 聚类分析…………………………………………………………………………2

1.4 数据挖掘的研究现状……………………………………………………………………2

1.5 数据挖掘的前景和热点…………………………………………………………………3

1.6 本文的主要工作…………………………………………………………………………4

1.7 论文结构…………………………………………………………………………………4

第二章 关联规则及其挖掘算法与应用…………………………………4

2.1 基本概念和问题描述……………………………………………………………………5

2.2 关联规则的种类…………………………………………………………………………6

2.3 关联规则挖掘及其算法…………………………………………………………………6

2.3.1 Apriori算法……………………………………………………………………6

2.3.1.1 算法的基本思想………………………………………………………………6

2.3.1.2 Apriori核心算法分析………………………………………………………7

2.3.1.3 算法的优化……………………………………………………………………7

2.3.2 Fp-树频集算法……………………………………………………………………7

2.3.3 多层关联规则挖掘…………………………………………………………………8

2.3.4 多维关联规则挖掘…………………………………………………………………8

2.4 小结………………………………………………………………………………………8

第三章 Fp-tree算法的研究分析与改进………………………………9

3.1 Fp-growth算法……………………………………………………………………………9

3.1.1 构造Fp-树…………………………………………………………………………9

3.1.2 Fp-growth算法的缺点与不足……………………………………………………10

3.1.3 小结…………………………………………………………………………………10

3.2 基于Fp-tree的关联规则改进算法……………………………………………………10

3.2.1 新算法的描述与介绍………………………………………………………………10

3.2.2 实例说明……………………………………………………………………………11

第四章 算法实验与分析………………………………………………15

4.1 实验结果…………………………………………………………………………………15

4.2 实验分析与总结…………………………………………………………………………18

4.3 小结………………………………………………………………………………………18

第五章 总结与展望……………………………………………………19

5.1 本文工作总结……………………………………………………………………………19

5.2 下一步工作展望…………………………………………………………………………19

参考文献…………………………………………………………………20

致谢………………………………………………………………………21

基于Fp-tree的关联规则算法的研究与应用

李家森

,China

Abstract:This article is about the rules of association papers, by narrating the history, development, and classification of data mining prospects after focusing describe the mining process, and some association rules algorithm based on the process, then analyzed the relationship between the two classical algorithms and their advantages and disadvantages, then had a careful study of the Fp-growth algorithm and summarize its advantages and disadvantages, and to the disadvantage of its mining process - a lot of memory problems were studied to improve the structure of consumption pattern tree Fp-tree occupancy designed the algorithm of the time and space in the implementation process, resulting in the depletion of low mining efficiency becomes higher. Improved use zoning database, construct a small database approach to reduce memory consumption and time overhead, it was found that the improvement has played a certain effect from the examples of the experimental method, but only have a more significant improvement in results when mining large databases. Summary shows that the improved algorithm is more suitable for application to large databases, and the loss in time and space than the same circumstances with Fp-growth algorithm is much lower. The improved algorithm not only rolled together, but also has certain reference value for future research to improve the shortcomings of such an algorithm.

Key words:Data Mining; Association Rule; Frequent Pattern Tree(Fp-tree);pattern tree

  1. 绪论

1.1数据挖掘的定义

数据挖掘,又称为数据库中知识发现(Knowledge Discovery from Database,简称KDD) [1],可以简单地解释为从非常多的数据里寻找或者提取知识。

但是我们需要了解到:数据挖掘是从非常多的数据中寻找到有意思的且事先未知的知识而不是从不知道的数据中找到自己需要的“知识”。数据当然是已知的,是已经给定的。可能找到的知识的结构决定于使用的方法数据模式。而具体挖掘出来的知识是不是需要且有作用的“知识”,这不是具体算法和数据挖掘技术需要考量的问题,而是取决于实施者。举个例子:把从一本诗集中搜集的词语和解释构成一本辞海,这个过程就是数据挖掘。辞海的词之间可能有着某些联系,这些词中可能有特殊字的出现频率,但你拿这个结果如何解释或者这个结果对你有什么启发,这是取决于你自己的理解的。

总之,数据挖掘是个贸易智能加上数据库技术的被夸大强调的观念。实际不过是提供数据到可理解描述的抽象技术。如果想要拿来解决实际问题,那还是要专家来分析结果。

所以说,数据挖掘应该是一种技术过程,需要实施者来酌情应用,从而获得所需资源,这便是数据挖掘。

1.2数据挖掘的主要步骤

数据挖掘的主要步骤:

1.数据清洗:除去数据中的噪声和无关成分;

2.数据集成:组合有联系的数据;

3.数据转换:转换使相关数据变得更好进行挖掘;

4.数据挖掘:挖掘实施者所需的“知识”;

5.模式评佑:提取挖掘知识中有意义的部分;

6.知识表示:展示挖掘成果。

由此能够看出,固然这个过程叫做数据挖掘,然而确切一点来说应该是数据库中的知识发现(KDD),而数据挖掘只是个中的一步。

1.3数据挖掘的主要任务

数据挖掘的任务主要可以分为四种,具体划分和具体名称如下所示:

1.3.1数据预处理

剩余内容已隐藏,请支付后下载全文,论文总字数:24647字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;