Web页面目标主题识别提取系统设计与实现

 2023-04-19 05:04

论文总字数:27915字

摘 要

当今互联网已经成为传播信息最便捷的途径,每天在互联网上都有无数的网站和网页正在产生。用户通过搜索引擎查找所需信息,搜索引擎根据人们输入的关键词将相关网页链接组成的页面推送给查询者,查询者在进行人工筛选,当返回页面中包含的链接信息非常多时,人工筛选费时费力。为了解决这个问题,本文设计并实现了web页面主题识别提取系统。

首先,按照需求分析,确定该系统应具备的功能模块和业务逻辑,主要的功能模块就是搜索模块,业务逻辑就是实现将网页内容自动抽取并保存在数据库中,并提供接口实现用户对网页中数据的快速查询。

其次,按照确定业务逻辑来实现该模块的功能,最终要实现该功能就是操作数据库。结合数据抽取原理,实现对用户给定网页的自动保存,提取出网页中的图片和文字,设计数据库模式,用户可以通过连接数据库,将提取的信息保存在数据库中。

最后,结合实际网页,对网页信息抽取系统进行试验分析,验证设计的有效性。

关键词:数据抽取原理;网页信息自动抽取;网页信息抽取验证;

Design and realization of web page theme’s recognition and

extraction system

Abstract

Today the Internet has become the fastest and most convenient relay route, every day countless websites and web pages are generated on the Internet.Users search engines to find the information you need, the search engine based on keywords people type links to pages related to the composition of those pushed to the query, the query by making artificial selection, when the link information returns page contains very long, time-consuming artificial selection effort.To solve this problem, we designed and implemented a web page topic recognition extraction system.

First, according to the demand analysis, the system should have the function modules and business logic, the main function module is the search modules, business logic is to realize the web content is automatically extracted and stored in a database and provide data to the user interface pages fast query.

Secondly, in accordance with established business logic to realize the function of the module, and ultimately to achieve this function it is to operate the database. Combine data extraction principle, to achieve a given user page is automatically saved, extracted the Web for images and text, design database schema, users can connect to the database, the extracted information is stored in the database.

Finally, combined with the actual page on the Web information extraction system test analysis to verify the validity of the design.

Keywords: data extraction principle;automatically extract pages of information;

Web information extraction verification;

目录

摘要 I

Abstract II

第一章 绪论 1

1.1 课题研究背景 1

1.2 国内外研究现状 1

1.3课题研究内容 1

1.4论文组织结构 1

第二章 相关开发技术介绍 3

2.1 spring MVC框架简介 3

2.2 spring MVC环境搭建 3

2.2.1 spring MVC框架jar包 3

2.2.2 spring MVC框架web.xml部分配 3

2.2.3 spring-servlet.xml配置 4

2.3 Hibernate简介 5

2.4 Hibernate环境搭建 5

2.4.1 Hibernate jar包 5

2.4.2 Hibernate 的配置文件 5

2.4.3 Hibernate的使用步骤 5

2.5 JSP简介 5

2.6 开发环境搭建 6

2.7 本章小结 6

3.1 mvc设计模型 7

3.1.1 mvc设计模型简介 7

3.1.2 mvc设计模型的工作方式 7

3.2 主要功能模块 7

3.2.1 用户模块用例图 7

3.2.3 搜索模块用例图 8

3.3 数据库设计 9

3.3.1 数据库分析 9

3.3.2 数据库创建语句 9

3.3.3 数据库表结构 10

3.3.4 数据流程 11

3.4 目标主题相似性分析方法 13

3.5 本章小结 13

第四章 系统实现 14

4.1前台界面实现 14

4.1.1主界面(index.jsp) 14

4.1.2 管理员管理界面(adminManage.jsp) 14

4.1.3 搜索历史管理界面(searchHistory.jsp) 14

4.1.4 用户管理界面(userManage.jsp) 15

4.1.5 敏感词汇管理界面(sensitiveManage.jsp) 16

4.1.6搜索结果(searchResult.jsp) 17

4.1.7 敏感词设置管理界面(sensitiveSiteManage.jsp) 17

4.2.1 数据库操作实现 18

4.2.2 控制层实现 19

4.2.3网页解析与关键词匹配 23

4.3 数据结构 25

4.4本章小结 25

第五章 系统运行效果及分析 26

5.1 用户模块 26

5.1.1 注册功能运行效果图及分析 26

5.1.2 登录功能运行效果及分析 26

5.1.4 修改信息功能及其分析 27

5.1.5 查看搜索历史运行效果及分析 27

5.2管理员模块 28

5.2.1 管理员管理运行效果及分析 28

5.2.2用户管理运行效果及分析 29

5.3 搜索模块 29

5.3.1搜索结果运行效果及分析 30

5.4 本章小结 30

第六章 总结全文 31

6.1总结 31

6.2 展望 31

致谢 32

参考文献 33

附录 34

剩余内容已隐藏,请支付后下载全文,论文总字数:27915字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;