多元数据整合技术

 2022-01-17 11:01

论文总字数:22832字

目 录

1.绪论 6

1.1课题背景 6

1.2国内外研究现状 7

1.3多元数据的概述 8

2.多元数据整合技术 9

2.1多元数据整合的介绍和基本方式 9

2.1.1数据仓库法 9

2.1.2联邦式数据库法 10

2.1.3中间件法 11

2.2多元数据整合要求 12

2.3多元数据整合的关键技术和主要难点 12

3. XML技术与中间件法 13

3.1 XML的概述 13

3.2 XML的优越性 14

3.3 XML与中间件技术的结合 14

4.核心技术分析 15

4.1 XML与JAVA的优势互补 15

4.2 XML与数据库 15

4.2.1 XML与数据库的关系 16

4.2.2关系数据库与 XML 的映射 16

4.3基于XML的数据整合 18

5.基于XML技术的多元数据整合技术实例 19

5.1将MySQL数据库中的数据整合为XML文件 19

5.2将TXT文本文档整合为XML文件 21

5.3将HTML网页整合为XML文件 23

6.总结与展望 25

参考文献 26

致谢 26

多元数据整合技术

华圆

,China

Abstract: With the rapid development of computer technology, database application and network technology, a wide variety of computer application systems have existed at the same time. These systems’ setup time is different and often mutually independent. They can hardly achieve data interaction between each other. In addition, different system providers offer different products. Therefore, it brings about the differences between multiple platforms, systems, development languages and data formats. All these reasons make it difficult for each system to transmit data and share resource. Finally, it will cause the ‘Information Silo’. Exactly, ‘multivariate data integration’ has become a popular research area among people's general concern. In this paper, I will mainly study the multivariate data integration technology based on XML, and will also do some research and analysis on the common technologies. I use XML technology to achieve the conversion from database data to XML files, implement the conversion from HTML web page to XML files and also realize the conversion from TXT document to XML files. It turns out to be that XML can effectively integrate data from different storage formats. It improves the efficiency of data exchange and greatly meets the needs of the industry.

Key words: Information Silo; resource sharing; multivariate data; XML; data integration

1.绪论

1.1课题背景

随着计算机技术的进步,特别是Internet技术的迅猛发展,使得社会各界都基本实现了由计算机进行管理的进程。在整个信息化进程中,会出现科技发展进度不平均以及技术使用不统一的现象,比如企业内部的不同部门之间由于工作方式以及负责内容的不同导致资源共享难以保证。不仅如此,不同企业间的信息化进程也有较大的差异,使得不同企业在合作时会由于相互独立、各自不同的管理系统难以共存。正是由于这个原因,不同系统之间的数据难以进行交流,这将导致“信息孤岛”现象的发生,这种现象将大大降低企业内部以及各企业之间的合作效率,降低企业利润。“信息孤岛”的危害主要出现在以下这几个方面:

(1)数据不一致。相互独立的系统之间要进行数据的共享,势必要对相同的数据进行多次输入,并且系统对某个程序的运行结果还必须要手动输入到另一个系统中,这样就导致数据的使用性不高,数据共享效率低。此外,不同的数据源会产生出不同类型的数据,不同类型数据的输入输出会消耗更多的劳动力。不一致的数据甚至是错误的数据将减缓信息化的进程。

(2)数据共享难、反馈迟缓。严重的“信息孤岛”现象会阻碍系统共享有效信息,使得系统效率低下。在这种情况下,数据共享以及反馈的难题会使得信息化进程迟缓。

(3)操作困难,决策效率低。实际情况中,“信息孤岛”使得系统之间并不互通,这样一来进入系统所需的账号以及密码等各不相同,正是这样用户势必要记住多套账号和密码等登录信息,而系统间退出与登录的频繁操作大大降低了实际操作的效率。实际运用往往需要对全局的正确把握和统筹安排,各类数据必须在第一时间进行交互与共享。而如今现实中不同部门、不同企业间的交流经常受到不同系统间信息难以共享的限制,使得企业决策力降低。而一个企业的管理者注重的往往是对于企业各部门实时信息的掌控,以迅速地处理企业内部的突发情况。总而言之,“信息孤岛”的普遍存在,使得各类数据难以在较短时间内转化为具有价值属性的信息,而不正确、不具有全面性的信息会大大影响决策效率。

(4)不利于信息化进程的推进、行业化标准难以统一。互联网技术的蓬勃发展致使信息化在整个社会的各个行业中不断推进。在一个企业中,如果下属部门相互之间不能做到紧密联系,不能及时向上级部门提供可靠的信息,那么这个企业的信息化进程就毫无意义,无法推进。从总体上看,当今社会普遍缺少对企业内部信息化推进的重视,对信息化工作缺少长远的计划,使得企业管理效率低下。企业中应该更加重视工作中各环节的信息化,加强管理的实时性,调高统筹管理的执行效率。随着企业信息化步伐的不断迈进,会使得企业中“信息孤岛”现象的出现,正是因此多元数据整合技术越来越成为人们研究的话题。

多元数据整合技术的研究对加快信息化进程、提高系统的运营效率起着极为关键的作用。而将XML文档作为数据整合的中间件技术,能够高效地处理“信息孤岛”带来的一系列问题。此技术的基本原理是将来源数据所在的数据库结构和数据本身分解开来,形成数据库结构文件和数据本身的存储文件,然后将前者与XML结构之间形成相互的映射。与此同时,数据交换过程中,要将目标数据库按照得到的数据库结构文件来重新搭建数据库,新的目标数据库生成之后,对已经建立好的目标数据库使用DOM解析器,解析之前生成的存有数据本身的存储文件中的数据,并将这些数据存入搭建好的目标数据库。具体的基于XML技术的数据整合步骤如图1所示。

图1 基于XML技术的数据整合一般步骤

1.2国内外研究现状

对于多元数据整合技术的研究在国外已经有了很多成果,研究内容主要包括数据转换、数据转换规则、数据整合的框架、数据整合的通用性、数据同步方案等。从这些技术出发,研究者们成功开发出许多已经投入使用并获得很大成功的研究成果,正是这些研究成果使得国外软件及数据库企业生产出许多使用度很高的商品。

研究至今,多元数据的整合技术已经研究出许多不同的整合方式,以下几种是使用最普遍的:数据仓库(Data Warehouse)法、联邦式数据库(Federated Database)法和中间件(Middleware)法。其中数据仓库法是使用逻辑处理方式的,而另外两种则是偏向基于物理处理方式的。以上三种方式将在下文进行详细介绍:

数据仓库法是运用读取、查询、转换和搭建等一系列操作来构造一个数据中心,此中心能够对数据进行存储和管理,数据仓库最主要的特征是结构稳定以及实时性高。数据仓库法在现实中已经被许多公司开发出投入使用的产品,比如Informatica公司开发的DataStage,Oracle公司研制的Warehouse Builder和IBM公司研发的Warehouse Manager等;而联邦式数据库法是一种使用时间很长的数据整合方法,此类方法最主要的特点是比较适合数据库存储量较小的情况,正在被使用的产品有HP公司开发的Pgeasus和UniSQL公司研发的UniSQL/M;中间件方式则主要整合的对象是底层数据源,此类方法对于多数据源、独立性高且数据更新速度快的数据源有着很高的实用性,国外许多数据库公司如Sybase、IBM、Oracle等都对中间件的研究投入了很大的人力和物力,也开发出了相应的中间件产品。

多元数据整合的核心工作是对多元数据进行转换,而多元数据的转换更成为许多研究者的重点研究领域。在数据转化的研究中,Pnaos等人提出了对此进行分类,并集中研究了数据转换过程中的相互映射以及基本的转换方式[1]。在模式层面的研究中,Erhard Rahm等人详细论述了模式匹配中普遍使用的体系结构以及模式匹配的基本过程与步骤;Sergeyc Melnik等人开发了一种以定点计算为主要原理的SF(Similarity Flooding)算法;Jayant Madhavanl开发出了一种基于XML的Cupid用于匹配的算法。

为了实现多元数据的转换,如今一些大型软件公司纷纷开发出于自己公司产品相对应的API,现在流行的主要有ODBC,OLE DB,ADO等。不仅如此,这些软件公司也开发了相应的数据转换工具,比如SQLServer中的DTS,Oracle中的SQL*Loader以及powerBuilder中的Data Pipline等。这些已经投入使用的技术能够在一定程度上实现多元数据的转换以及整合。然而这些转换工具本身也有着相互之间不能够有效交互的缺点,并对与自己相应的数据库十分依赖,不易扩展,可操作性差。

剩余内容已隐藏,请支付后下载全文,论文总字数:22832字

相关图片展示:

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;