基于DataX的数据离线同步工具设计与实现

 2022-04-07 08:04

论文总字数:48178字

摘 要

异构数据存储系统的大量使用,产生了在异构数据源之间进行数据同步的需求,但是目前市面上的常用工具大多具有或多或少的缺陷,如支持的数据源类型过少、数据同步效率低下、操作使用繁琐等。基于此类问题,本课题提出并设计了一个便捷、高效、理论上可支持多数市面上主流数据存储系统的数据离线同步工具。

工具使用Java语言开发,基于DataX进行设计、实现,由两部分组成,其中管理平台部分作为一个WEB应用进行部署,使用Spring Boot进行构建,采用Spring MVC框架,负责提供可视化界面和管理功能;执行主机程序部分编译为Jar包进行部署,其负责任务执行和结果获取,由管理平台进行调控。两部分程序均采用模块划分的思想进行设计,其中管理平台由主机管理模块、脚本管理模块、结果监测模块和文件上传模块构成,执行主机程序由数据源测试模块和任务执行与日志分析模块构成,各模块之间相互合作,协调实现工具的各项功能,并使得整体系统具有良好的可维护性和扩展性。

目前本工具已完成各功能模块的开发和测试。根据测试结果,工具能够有效地配置、管理和执行数据同步任务并提供结果监测服务,基本达到了工具的设计要求。

关键词:Spring MVC,DataX,数据离线同步,WEB应用

Design and implementation of data offline synchronization tool based on DataX

71115416 Li Zhiwen

Advisor: Ren Guolin

ABSTEACT

The extensive use of heterogeneous data storage systems has resulted in the need of data synchronization between heterogeneous data sources, but most of the common tools on the market today have more or less defects, such as too few types of supported data sources, inefficient data synchronization, cumbersome operation and so on. Based on this kind of problem, this paper proposes and designs a convenient and efficient data offline synchronization tool which can theoretically support most mainstream data storage systems on the market.

The tool is developed using the Java language, designed and implemented based on DataX, and consists of two parts, in which the Management Platform section is deployed as a WEB application, built by Spring Boot, and uses the Spring MVC framework to provide visual interface and management capabilities. The execution host program section is compiled into a Jar package to be deployed, which is responsible for task execution and result acquisition, and is regulated by the Management Platform. The two program are designed with the idea of module division, in which the management platform is composed of host management module, script management module, result monitoring module and file upload module, the execution host program is composed of data source test module and task execution and log analysis module, each module cooperates with each other, coordinating the realization of the function of the tool, and making the whole system has good maintainability and extensibility.

At present, this tool has completed the development and test of each function module. According to the test results, the tool can effectively configure, manage and perform data synchronization tasks and provide results monitoring services, basically meeting the design requirements.

KEY WORD: Spring MVC, DataX, Data Offline Synchronization, WEB Application

目 录

摘要 I

ABSTEACT II

第一章 绪论 1

1.1项目背景 1

1.1.1需求的产生和实现方案 1

1.1.2现有离线同步工具特点 1

1.2项目概述 2

1.2.1项目目标 2

1.2.2基本方案 2

1.2.3项目意义 2

1.3论文结构 3

第二章 相关知识 4

2.1 Spring Boot 4

2.2 Spring MVC 4

2.3 DataX 5

2.4 Cron表达式 6

2.5 Quartz 7

2.6小结 8

第三章 需求分析 9

3.1功能需求 9

3.2交互需求 12

3.3小结 14

第四章 概要设计 15

4.1系统整体架构 15

4.2管理平台架构 16

4.2.1主机管理 16

4.2.2脚本管理 17

4.2.3结果监测 18

4.2.4文件上传 19

4.3执行主机程序架构 19

4.3.1数据源测试 20

4.3.2任务执行与日志分析 21

4.4小结 22

第五章 详细设计与功能实现 23

5.1开发与部署 23

5.1.1开发环境 23

5.1.2部署与启动 23

5.2主机管理模块 23

5.2.1数据表与交互设计 24

5.2.2功能实现 25

5.3脚本管理 28

5.3.1脚本配置管理子模块数据表与交互设计 29

5.3.2脚本配置管理子模块功能实现 34

5.3.3任务调度子模块数据表与交互设计 37

5.3.4任务调度子模块功能实现 38

5.4结果监测模块 44

5.4.1数据表和交互设计 45

5.4.2功能实现 46

5.5文件上传模块 49

5.5.1交互设计 49

5.5.2功能实现 50

5.6数据源测试模块 52

5.7任务执行与日志分析模块 54

5.7.1任务执行 55

5.7.2日志分析 58

5.8小结 60

第六章 项目测试 61

6.1测试环境与数据 61

6.2测试过程与结果 61

第七章 总结与展望 64

7.1总结概括 64

7.2未来展望 64

参考文献 65

致 谢 66

第一章 绪论

1.1项目背景

1.1.1需求的产生和实现方案

在现今的数据库应用领域,种类繁多的数据库管理系统因其各自不同的特性而被应用于广泛的业务场景中,在这些异构的数据源中,存储了大量的结构化、半结构化或无结构数据。而随着技术的发展以及业务场景的变更和扩展,各个数据源的数据产生了互通、同步的需求。尤其是当前大数据技术的应用中,各异构数据源提供了重要的基础数据支撑。

具有需求,则相应的会有应对方法。随需求逐渐广泛地出现,数据同步也进入了技术人员的研究领域。根据进行数据同步工作时数据源的状态,可以将数据同步分为离线同步和在线同步两种。

剩余内容已隐藏,请支付后下载全文,论文总字数:48178字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;