面向空缺值处理的数据预处理系统设计与实现

 2023-04-19 05:04

论文总字数:13702字

摘 要

随着信息技术的发展,每一个行业都积累了大量的数据,对于数据分析而言,数据是核心。但是并不是所有的数据都是有用的,大多数数据是参差不齐的,概念层次不清的,数量级不同的,这就给后续的数据分析和数据挖掘带来的极大的麻烦,甚至导致错误的结论。空缺值填补是数据预处理的重要操作,论文基于现有空缺值处理技术设计实现面向空缺值填补的数据预处理系统。

论文主要工作包括:

  1. 结合空缺值处理技术进行需求分析,确立系统功能,规划系统范围,确立模板所要完成的任务;
  2. 构建系统构架、设计功能模块,工作流程和数据流程;

3、搭建开发环境,完成项目的编码并进行测试,验证系统的有效性;

关键词:数据;预处理;总体设计;系统测试

Design and implementation of data preprocessing system for vacancy processing

Abstract

With the development of information technology, every industry have accumulated large amounts of data, the data mining analysis can provide information to aid in decision making for the development of the industry, the data pre processing of data mining analysis is the most important. For data analysis, data is the core. But not all the data are useful, most of the data is uneven, concept hierarchy is not clear, different scales, this gives the follow-up data analysis and data mining will bring great trouble, and even lead to wrong conclusions.Fill the vacancy value is a basic operation of data preprocessing, the existing vacancies to the value of the processing technology design and Implementation for missing value to fill the data pre processing system based on.

The main work of the thesis includes:

1, Combining gap value processing demand analysis,establish the system function,scope of planning system, establish a template to complete the task;

2,Build the system architecture,design of function modules, the work process and data process;

3,Set up the development environment to complete the project code and test,verify the validity of the system.

Keywords: data; preprocessing; overall design;system test

目 录

摘 要 I

Abstract II

目 录 III

前 言 1

第一章 绪论 2

1.1 课题背景 2

1.2 研究目标 2

1.3 研发内容 2

1.4 论文组织结构 2

第二章 背景技术介绍 3

2.1 空缺值预处理技术 3

2.2 开发语言Java 3

2.3 JSP动态网页开发 3

2.4 My SQL 4

2.5 基于B/S的体系结构 4

第三章 系统需求分析 5

3.1 性能需求分析 5

3.2 需求分析的可行性 5

3.2.1 经济上的可行性 5

3.2.2 技术研究的可行性 5

3.2.3 管理方面的可行性 6

3.2.4 法律上的可行性 6

3.3 功能需求分析 6

3.4软件质量需求分析 6

3.5系统总体框架设计 7

3.5.1 系统流程图 7

第四章 系统设计 8

4.1 系统概述 8

4.1.1系统总体功能图 8

4.1.2 数据库的设计 11

4.2 空缺值的概述 13

4.2.1 基本无监督填补 13

4.2.2 基本有监督填补 14

4.3 实现空缺值处理的核心代码 14

第五章 详细的设计思路与实现 22

5.1 网站首页 22

5.2 系统登陆 22

5.3 用户管理 25

5.4 数据类型管理 26

5.5 数据录入管理 26

第六章 总结与展望 28

参考文献 29

致谢 30

前 言

随着计算机及数据存、处理技术的快速发展,社会生产和生活中积累了大量数据,数据挖掘能够清理脏数据,留下有用的数据,从而为企业发展提供辅助决策信息,然而高质量的决策需要高质量的数据作支撑。现实世界数据中存在大量的空缺数据,如何对这些属性的空缺字段进行有效的填充,体现了数据挖掘的优点,所以在要进行数据挖掘,踢掉脏数据,以提升数据品质。数据预处理有以下四个步骤:数据清理、数据集成、数据转换和数据归约等。而实际中人们为了解决数据预处理中产生的空缺值花费了大量的时间和精力。因此攻克这些空缺值的问题势在必行。

空缺值由以下几个原因产生:

(1)在记录信息时,信息上的数据无效。比如说,即将要填写的某商品价格无法录入;

(2)有些信息被认为在那个时候是没有用处的。比如说,某个元件配用在电子产品上,在进行可靠性试验时,认为哪个元件的信息时没有用处的,没有记录;

(3)因为设备失灵或误检而不能纪录正确数据;

(4)应与其它记录内容不相符而被删除;

(5)数据修改时,有些数据的数据项容易被忽略。

所以,本毕业论文课题以数据预处理系统中的空缺值数据预处理为出发点,深入研究它所拥有的方法,主要使用固定值填补、均值填补、同类均值填补等算法,进行实现一个简单的数据预处理系统,提供核心的预处理算法等。

第一章 绪论

1.1 课题背景

如今网络发达,我们处在一个信息爆炸的年代,每一个行业都积累了大量的数据,为了提高每一个行业的工作效率,数据挖掘显得势在必行。

由于现实数据的不完整,通过数据预处理,提高了数据挖掘的有效性,也使得它的准确性提高,从而数据的品质更加优良。因为数据预处理是整个数据挖掘工程中的一个重要的步骤,所以数据质量的高低影响着数据决策质量的高低。

1.2 研究目标

为了实现一个基于Java编程语言开发的一个空缺值处理的数据预处理系统,我们主要运用固定值填补、均值填补、同类均值填补等一系列的算法,主要实现数据预处理的算法,通用场景中的数据预处理问题的设计分析和实现。

剩余内容已隐藏,请支付后下载全文,论文总字数:13702字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;