网页表格抓取转换系统设计与实现

 2023-04-19 05:04

论文总字数:20003字

摘 要

随着互联网技术的快速发展,网页信息不断的增加,互联网已融入人们的学习、工作和生活当中,人们习惯于在网上查找自己感兴趣的或者有用的资料。搜索引擎技术为人们找到目标网页提供了便捷的方式,但在找到目标网页后,往往面临着目标网页包含表格数据时,无法直接将表格信息提取并保存的问题,不便于对网页内容资源的有效利用。因此,web信息提取技术应运而生。随着互联网应用的不断开发,基于网页正文提取的技术层出不穷。几种比较经典的提取模型包括:基于DOM树网页提取模型,基于统计的网页提取模型,基于分块的网页提取模型。本课题考虑设计软件工具,实现对给定网页内数据表格的识别和提取,并将提取出的表格数据转换为关系数据库关系表存储到本地数据库中。

关键词:网页;表格识别;表格提取与存储

Abstract

With the rapid development of Internet technology, web information is increasing, the Internet has been integrated into people"s study, work and life, people used to in online to find interesting or useful information. Search engine technology for people to find the target page provides a convenient way, but to find the target page often face a target page contains data tables, cannot directly be table information extraction and preservation, does not facilitate the effective use of web resources. Therefore, web information extraction technology. With the continuous development of Internet applications, emerging technology based on Web text extraction. Comparison of several classical extraction model including: Based on the DOM tree of the web page extraction model, extraction model based on Statistics page, block based web page extraction model. This paper considered design software tools, on a given web page data table recognition and extraction, and the extracted form data conversion for relational database relational tables are stored to the local database.

Key words:Webpage;Table recognition;Table extraction and storage

目录

东南大学成贤学院毕业设计报告(论文) II

关键词:网页;表格识别;表格提取与存储 I

目录 III

第一章 绪论 1

1.1 背景与意义 1

1.2 主要工作概述 1

1.3 论文结构安排 1

第二章 相关技术 1

2.1 J2ee及 HtmlParser简介 2

2.1.1 J2ee 2

2.1.2 HtmlParser 2

2.2 Mysql和Jdbc介绍 2

2.2.1 mysql 2

2.2.2 Jdbc 3

2.2.3 JavaBean 3

第三章 系统设计 4

3.1 系统架构 4

3.2 需求功能分析 4

3.3 数据库设计 5

3.4 处理功能设计 5

3.4.1网页内容提取 6

3.4.2 网页分析 6

3.4.3 表格抽取 6

3.4.4 数据库存储 6

3.4.3 数据库查询 6

第四章 系统实现 7

4.1运行环境及工具介绍 7

4.1.1运行环境 7

4.1.2开发工具介绍 7

4.2 系统程序工程类说明 7

4.3 具体功能的代码实现 8

第五章 系统运行及运行分析 21

5.1 系统运行效果 21

5.2 运行测试分析 22

第六章 论文总结和展望 25

6.1 总结 25

6.2.展望 25

致谢 26

参考文献 27

第一章 绪论

1.1 背景与意义

如今随着互联网信息技术的发展和应用,网络信息在不断的增加,人们对网络也越来越熟悉,对网络的使用也越来越频繁,网页信息的需求的膨胀,使人们对网络信息的准确性、实时性、可靠性等要求也越来越高。

网络为我们提供了快捷的海量信息的同时,也给我们带了一些问题,比如:多种网页的格式的不同、网页信息的超载等等。为了解决这些困难,就需要新的工具或技术来自动的帮助人们在海量信息中快速准确的找到需要的信息,这时候,网页信息抽取研究技术应运而生。随着此项技术的发展,人们又发现这些海量互联网信息多数是板结构化格式构成的,很难被用户直接获取引用,所以将非结构化或半结构化的web信息转化为便于用户使用的结构化信息,具有重要的研究价值。如何从这海量的网页信息中提取快速、准确的提取有用的信息,成了当务之急。搜索引擎技术为人们找到目标网页提供了便捷的方式,但在找到目标网页后,在提取信息时往往面临着很多时候目标网页包含表格数据,无法直接将表格信息提取并保存的问题,不便于对网页内容资源的有效利用。

信息抽取技术是将一断文本中的所需要的信息抽取出来,形成结构化的数据,以便用户对这些数据的查询和使用。信息抽取最终的目的是开发应用型原型系统,从原始文本中分析数据、抽取有效数据,进而得到用户所需要的有用信息。Web信息抽取技术的核心是抽取包含在web网页中的无结构或板结构的有用信息,并将这些信息以更为结构化、语义更为清晰的格式显示出来。由于表格在网页中的形式多种多样,利用传统的句法语义处理表格信息比处理自然语言要复杂的多,另外,传统的表格识别、单元格分类的方法的普适性较差。如今,果类的关于web表格信息抽取的研究还处于探索的初级阶段。本文利用Java中的Htmlparser技术设计软件,实现将Html网页中的表格信息抽取出来,再整理转换并存到本地数据库中。

1.2 主要工作概述

设计软件工具,实现对给定网页内数据表格的识别和提取,并将提取出的表格数据转换为关系数据库关系表存储。

(1)对复杂表格(统计表)识别并给出提示

剩余内容已隐藏,请支付后下载全文,论文总字数:20003字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;