web数据的超链关系分析

 2022-10-14 04:10

论文总字数:28926字

摘 要

随着网络技术的高速发展和应用的深入,网络成为大众发布和获取信息的重要来源之一。互联网在经历了长期的发展后,已经形成了海量的数据。由于当代互联网的技术被广泛地应用于现代生活并快速发展,大众对于互联网的信息存储和提取也有着越来越强烈的依赖和需求。

在经历了漫长的发展过程后,互联网已经开始有着非常庞大的数据信息。web信息资源呈现出疯狂的增长,而如何利用好这些信息资源成为了学者们研究的一个问题。在此期间,学术界提出了超链分析的思想,指出一个网页的权威性与这个网页被链接的次数多少相关,次数越多则有着越高的权威性,反之亦成立。

但互联网的动态及其异构分步等特点,又使得超链分析要比引文分析更为复杂,需要结合更多方法与技术来进行研究和学习。web数据的超链关系分析能够为解决信息检索这一问题提供量化“相关性”的自然方法,能够更好地帮助人们了解信息的结构及其隐藏模式。本系统采用HttpClient、Jsoup、HtmlUnit进行爬取页面内容,后端采用SpringBoot框架进行开发,前端采用React框架进行页面搭建。

【关键词】超链接;HtmlUnit;SpringBoot;React

Abstract

With the rapid development and application of network technology, the network has become one of the important sources for the public to release and obtain information. After a long period of development, the Internet has formed a huge amount of data. The growth of Web information resources is crazy, and how to make good use of these information resources has become a problem for scholars to study. Based on the method of citation analysis, the idea of hyperlink analysis is also put forward: if a web page is linked more times, this shows that the web page must be more and more authoritative. However, the dynamics of the Internet and its heterogeneous and step-by-step characteristics make hyperlink analysis more complex than citation analysis, which requires more methods and techniques to be combined for research and learning. The hyperlink analysis of Web data can provide a natural way to quantify "relevance" for solving the problem of information retrieval, and help people better understand the structure of information and its hiding mode. This system uses HttpClient, Jsoup, HtmlUnit to crawl page content, SpringBook framework to develop the back end, and React framework to build the front end.

Keywords:Hyperlink; HtmlUnit; SpringBoot; React

目录

毕业设计报告(论文) 1

web数据的超链关系分析 1

东南大学成贤学院毕业设计报告(论文) II

诚 信 承 诺 II

摘要 IV

Abstract V

第一章 绪论 1

1.1 超链接算法数据挖掘的开发背景 1

1.2设计目的与意义 1

第二章 系统需求分析 2

2.1 可行性分析 2

2.1.1 操作可行性 2

2.1.2 经济可行性 2

2.1.3 技术可行性 2

第三章 相关技术 3

3.1 Google和PageRank算法 3

3.2 PageRank算法 3

3.1 网页rank值的分布 4

3.3 java技术 4

3.4 SpringBoot框架 5

3.5 HttpClient 5

3.6 Jsoup 5

3.7 htmlunit 6

3.8 React框架 6

第四章 开发环境搭建 7

4.1 jdk下载 7

图4.1 jdk的下载 7

4.2 eclipse下载 7

图4.2 Eclipse的下载 8

4.3 SpringBoot框架包下载 8

图4.3 SpringBoot框架包的下载 8

4.4 WebStorm下载 8

图4.4 WebStorm的下载 9

4.5 yarn安装 9

图4.5 yarn的安装 9

4.6 Node.JS安装 10

图4.6 Node.js的安装 10

第五章 系统详细设计 11

5.1 工程创建 11

图5.1 操作1 11

图5.2 操作2 11

5.2 pox.xml配置 12

图5.3 操作3 12

5.3 application.properties配置 16

图5.4 操作4 16

5.4工具类设计 17

5.5 代理ip获取以及创建仿真浏览器 19

e.printStackTrace(); 20

e.printStackTrace(); 21

e.printStackTrace(); 22

e.printStackTrace(); 23

5.6 设计爬取超链接地址之后的模板 26

e.printStackTrace(); 27

e.printStackTrace(); 27

e.printStackTrace(); 27

5.7 PageRank算法设计 28

5.8 服务层实现代码 29

5.9 控制层实现代码 35

e.printStackTrace(); 37

5.10 页面设计 37

图5.5 操作5 38

第六章 系统测试 39

6.1界面主页 39

图6.1 界面主页 39

6.2 搜索测试 39

图6.2 搜索测试 40

图6.3 任意选择一个超链接进入 40

图6.4 测试成功 40

结束语 41

致 谢 42

参考文献 43

绪论

1.1 超链接算法数据挖掘的开发背景

关键字是大多数传统web搜索引擎进行匹配的基础,并且这类搜索引擎得到的返回结果中包括查询项的文档,也有以目录分类为基础的搜索引擎。这类结果并不能很好地满足当代人的需求,尤其是考虑到某些站点会利用关键字的出现次数这一点来提高自己在搜索引擎结果中的出现次数,使得这类结果并不很很客观且准确地得到体现。此外,有些主要网页并不包含查询项。并且搜索引擎也很难将各种各样的类别全面地列入考虑范围内,同时需要花费高昂的费用来进行人工维护。其更新速度也更是缓慢。

学术界许多研究者在最近这些年里开始发现,万维网上的超链接结构蕴含着许多此前从未被挖掘分析到的资源。如果这部分信息能够得到进一步的提取和利用,搜索引擎则能够展开进一步的升级,从而提高搜索结果的质量。这种分析思想使得塞吉·布林和拉里·佩奇两位工程师在上世纪末提出了名为PageRank的算法。与此同时,J.Kleinberg也提出了一个名为HITS的算法。学术界的学者们也开始争锋提出了诸多超链分析算法,其中一部分已经运用到了实际当中,并取得了不错的成效。

剩余内容已隐藏,请支付后下载全文,论文总字数:28926字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;