基于概念格的气象灾害本体设计及其在主题爬虫中的应用

 2022-01-17 11:01

论文总字数:25906字

目 录

1 引言 3

1.1研究背景和意义 3

1.2 国内外研究现状 4

2 本体设计 5

2.1 本体构建工具介绍 6

2.1.1 Protégé 6

2.1.2 分词工具 6

2.1.3 ConExp 6

2.2气象灾害本体建模 7

2.2.1 数据预处理 7

2.2.2形式概念分析 7

2.2.3概念格 7

3 主题爬虫相关介绍 15

3.1主题爬虫的定义及工作原理 15

3.2相关算法介绍 15

3.2.1 TF-IDF 15

3.2.2 向量空间模型 16

3.3网页解析 16

3.4 链接分析 18

3.4.1 主题语义向量获取 18

3.4.2 文本特征向量获取 18

3.4.3 网页文本主题相关度计算 18

3.4.4锚文本主题相关度计算 19

3.4.5链接的PR值 19

3.4.6 链接综合优先度 20

4 主题爬虫的实现 20

4.1 实验准备 20

4.1.1开发环境 20

4.1.2初始种子和关键词 21

4.2系统流程 21

4.3 爬准率 22

4.4实验结果与对比分析 22

5 总结与展望 25

5.1 本文所做的主要工作 25

5.2主要创新点 26

5.3 主题爬虫研究展望 26

参考文献 26

致谢 28

基于概念格的气象灾害本体设计及其在主体爬虫中的应用

郭文静

ABSTRACT: With the advent of the era of big data, in the context of massive data on the Internet, in the face of the needs of individual users, how to quickly and accurately obtain data in a certain field, the topic of the web crawler has become an extremely effective tool. In this project, firstly, the concept lattice-based meteorological disaster ontology was established. Based on this, it was applied to the topic web crawler. In the research of the topic web crawler, the TF-IDF algorithm and the vector space model method were used to calculate the Semantic similarity Theme semantic vector, textual feature vector based on HTML position weighting, subject relevance analysis, storing webpages larger than the threshold in the queue, extracting information in webpage links, calculating anchor text topic relevance and URL With the link priority, the theme webpage library closely related to the topic was obtained, followed by subsequent research and analysis, and finally the topic crawler was achieved, and good results were obtained. The experimental study shows that this strategy can effectively improve the crawl rate and stability.窗体顶端

AAA窗体底端

Abstract: The era of big data has come. Facing massive Internet data, how to provide personalized service for users has become a very serious problem. The theme crawler is an effective tool for this problem.In this paper, the concept lattice-based meteorological disaster ontology is first established and applied to the theme web crawler on this basis. In the process of the focused crawler, the TF-IDF algorithm and the vector space model method are used to calculate the semantic similarity between the concepts, thereby obtaining the topic semantic vector; then based on the HTML position weighting, the web text feature vector is calculated and the topic related to the webpage. Degree analysis, to determine whether the webpage is related to the topic; then by calculating the anchor text topic relevance and link PR value, get the link integrated priority, and finally get the webpage library related to the topic. The topic reptile was implemented using Java language. The experimental results show that the topic reptile method can effectively improve the crawl rate and stability.

Key word: Focused crawler; concept lattice; meteorological disasters body; subject relevance; TF-IDF; Vector Space Model.

1 引言

在大数据时代中,人们该怎样从互联网中获取资源?网络爬虫是有效工具。近些年,网络信息资源迅速增涨,人们的需求已经无法被传统的搜索引擎满足,用户会通过传统的搜索引擎搜到一些无关的信息或者数据,于是主题网络爬虫随着时代的潮流应运而生,我们所说的主题网络爬虫其实就是一个程序,这个程序用来下载一些特定的主题网页,来减少用户获取无关信息的数量。第41次CNNIC报告中指出,截止到2017年12月底,中国的搜索引擎用户数量达到了前所未有的高度,并且已经达到了6.4亿,使用率甚至高达82.8%,可见,中国当前网民的基本行为已经离不开搜索。因此,以主题爬虫为基础的搜索引擎是当前的一个研究热点。本课题得到国家社会科学基金重大招标项目(No.16ZDA047)的支持。

1.1研究背景和意义

正是由于互联网的迅猛发展,World Wide Web也就是万维网承载了越来越多爆炸式的信息。作为数据仓库的互联网已逐渐拥有了海量、异构、实时变化等特性,本文所需的气象灾害数据以及气象灾害信息也广泛存在于互联网中,并且具有大数据特征,这些数据都以最基本的网页文本数据形式存在。目前人们面对一个巨大的挑战,那就是如何快速有效的提取这些信息,并且将它们利用到合适的方面。例如雅虎,谷歌等一些传统的搜索引擎,人们通过它们来获取信息和访问万维网,它们也成为了用户获取信息的指南针。不过,任何事情都有缺点,传统的搜索引擎也不例外,比如,每个用户都有各自的身份和背景,而且也位于不用的领域,所以他们的对信息的检索目标和检索需求也不一样。大部分的搜索引擎会返回很多与用户需求并不匹配的网页,虽然搜索引擎是的目的是为了得到更广泛的网络覆盖,但搜索引擎服务器的资源是少数的,有限的,而网络数据资源是庞大的,无限的,这二者有不可协调的矛盾。网络技术的蓬勃发展,使万维网上的数据形式变得丰富起来,视频、音频、数据库、图片等各种各样不同的数据出现了,对于具有一定的结构并且比较密集的数据,一般情况下,传统的搜索引擎是找不到这些数据的。如今,绝大多数的传统的搜索引擎都会提供一项功能,那就是基于关键字的搜索,但是它们难以提供和支持基于语义信息的查询,即同一个词在不同的语句中可能有不同的意思,所以基于语义的查询是传统搜索引擎需要解决的。

主题网络爬虫的诞生就是为了解决上述问题。在本文中,它根据人为建立的本体及挑选出的五个主题关键词,来访问相关网页以及相关链接,并且获取用户想要得到的信息。一般的网络爬虫与主题网络爬虫不同点在于,主题网络爬虫的目的爬取与主题内容相关的网页,进而提供给用户需要的数据,而一般的网络爬虫追求的是大的网络覆盖范围。

剩余内容已隐藏,请支付后下载全文,论文总字数:25906字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;