基于Word2vec的文本相似度算法的研究和设计

 2022-01-17 11:01

论文总字数:19189字

目 录

1.绪论 1

1.1课题背景 1

1.2 国内外研究现状 1

1.3 本文主要内容和基本章节 2

2.文本相似度的相关工作 2

2.1.文本相似度概述 2

2.2.文本预处理 3

2.2.1 统一格式 3

2.2.2 文本分词 4

2.2.3去停用词 6

2.3.文本的传统表示 7

2.3.1 布尔模型 7

2.3.2 向量空间模型 7

2.4.本章小结 8

3.基于词向量的文本表示 8

3.1.Word2vec模型 8

3.1.1 CBOW模型 9

3.1.2. Skip_gram模型 9

3.2. 朴素的文本表示方式 10

3.3. 基于词频的文本表示 10

3.4. 本章小结 12

4.文本相似度的计算与改进 12

4.1. 传统的文本相似度计算 13

4.1.1. 最长公共子串 13

4.1.2. 编辑距离 13

4.1.3. 传统的余弦相似度 13

4.2. 基于Word2vec的余弦文本相似度 14

5.实验结果 15

5.1.实验过程及结果 15

5.2.结果分析 19

6.总结与展望 19

参考文献 21

附录 22

致谢 23

基于Word2vec的文本相似度算法研究和设计

吴成豪

,China

Abstract:A large amount of text content contains a huge amount of valuable information, which makes the processing of the text particularly important. Among them, a measure of the similarity between the text is the very important means in text analysis, can be widely used for text classification, the paper's weight, improve the quality of the search engine. In the field of Chinese text processing, Chinese text needs to be processed more in terms of participle, given that Chinese text does not have an obvious separation mark compared with English text. In the aspect of similarity processing, traditional methods cannot deal with semantic similarity or related vocabulary, and it is not reasonable to set the keyword weight of different word frequency. All of this leads to a decrease in accuracy in calculating text similarity, which affects the outcome of subsequent processing. Word2vec model, introduced this article, through the model of each key words in the text of the word vector to calculate the similarity between the keywords, implement measure of similarity between text, keywords corresponding word frequency table, introduced at the same time, reduce the weight of the high frequency keywords, the weakening non-critical words, highlight the key words, so as to improve the accuracy of text similarity calculation. It is proved by experiment that the text similarity learning algorithm proposed in this paper has better results than the traditional text similarity algorithm.

Key words:Word vector; Word2vec model; text similarity

1.绪论

1.1课题背景

Internet已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道。随着Internet的大规模普及和企业信息化程度的提高,各种资源呈爆炸式增长。我们每天都会面对大量的数据,其中绝大部分数据是以文本显示的,如微信消息,网页浏览等。因此如何从这些数据中,获取我们需要的信息并对其进行处理,成为了自然语言处理的重要目的。

自然语言处理,英文是natural language process(NLP), 共分为两部分:自然语言生成系统把计算机数据转化为自然语言,便于人类的理解,自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

其中中文的文本处理因为其具有独特性而具有更多困难。在单词的边界界定方面,在我们的日常生活中,由于语言是连续的,人类也很好分辨出句子中词汇的分界,界定词汇边界通常使用的办法是选取能让给定的上下文最为通顺且在文法上无误的一种最佳组合,然而计算机并不一定能很好地处理长文本的分词,同时在长文本方面还有词义的消歧,句法模糊性等问题。

在很多自然语言处理的领域,文本相似度的分析变得十分重要。文本相似度计算是一个比较两篇或两篇以上文章的相似度的重要的度量指标。相似度越大,说明文本之间的相似较高,相反相似度越小,则说明文本之间的相似度较低。文本相似的计算一般来说可以分为两个方面:语义相似度的计算和非语义相似度的计算。文本相似度的研究有着广泛的应用,如:

1)信息检索,信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息。

2)自动问答,通过用户自然语言而非关键词的输入,返回用户想要得到的信息。

3)过滤相似度很高的新闻,或者网页去重。

Mikolov等人的Word2vec模型和应用,近两年来引起了很大的关注。已经显示Word2vec模型学习的单词的向量表示具有语义,并且在各种自然语言处理任务中很有用。越来越多的研究人员使用Word2vec或类似技术进行实验。

1.2 国内外研究现状

经过自然语言处理多年的发展,国内外许多的研究人员已经在文本相似度的研究上取得了一定的进展。其中在 1969 年,Salton 和 Mc Gill[1] 提出向量空间模型VSM。国内已有学者对 VSM 方法做出改进, 如郭庆琳等[2]通过增加关键特征词改进 DF 在特征值选择时过滤有用信息的不足, 以 及在计算 TF-IDF 时加入特征词筛选阶段的特征权重, 从而 在没有增加时间和空间复杂度的情况下, 提高精确度。.

Strube 等提出的 WikiRelat[3]方法, 基本原理是在维基百科中检索出与词语相关的网页, 并通过抽取网页所属类别找到分类树, 最终基于抽取的页面以及在分类法中的路径计算相关度。

隐性语义索引 LSI(Latent Semantic Indexing)是不同于关键词检索的搜索引擎解决方案,该方法由国外的 Chris H.Q.Ding 采用的。当大量的词出现在相同的文本中即认定这两个词相关,LSI将词和文本映射到语义空间,去除了原始噪音,计算得到文本相似度。现在的Google由于该方法效果较好,已在搜索功能中使用该方法。

同时也有文本分类器(TextClassifier),可以对于数据集进行识别。目前主流的分类算法主要有朴素贝叶斯分类(NaiveBayesClassifier)、决策树(DecisionTree)分类、K近邻(K-NearestNeighbor)分类以及支持向量机(SupportVectorMachine,SVM)等。

1.3 本文主要内容和基本章节

本文着眼于对于中文文本的相似度分析,首先简述了文本的预处理和文本的传统表示方式的不足,接下来集中讨论了向量空间模型,由此引入了Word2Vec来获取关键词的特征向量。通过Word2Vec获取目标文本词向量,然后根据词向量和词频表示文本向量,利用余弦相似度计算得到文本相似度,最后列出计算所获得的结果。本文章节主要安排如下:

第一章:绪论,主要介绍了文本相似度计算的课题背景以及国内外目前的研究现状,同时确立了本文的研究方向。

第二章:文本相似度的相关工作,主要介绍了文本相似度的概念以及计算文本相似度之前所需要的文本预处理和文本表示。

第三章:Word2Vec模型,主要介绍了Word2Vec的相关原理,引入词向量概念,并且通过词向量表示文本,通过基于词频表示不同关键词权重。

第四章:文本相似度的计算与改进,通过之前表示出来的文本向量,计算文本相似度。

第五章:实验结果,本文通过实验,对照传统算法和改进后的算法,比较传统算法相对比于改进后算法的优势。

第六章:总结与展望

2.文本相似度的相关工作

2.1.文本相似度概述

相似度[4]本身是一个复杂且具有不同含义的概念,国内外研究人员已经对计算文本相似度的理论和方法进行了大量研究工作。在许多不同的情况下,文本相似度代表不同的含义。比如说,在机器翻译的实际过程中,相似度表示为文本翻译后的内容可以替代原内容的能力;而对于信息检索的应用过程,相似度表示的是用户想要通过信息检索获得的结果与信息检索系统所给出的结果的相似度;在舆论控制系统中,可以判断出文本语义与屏蔽词的相似度。由此说明文本的相似度在不同方面的概念是不同的,应该根据内容具体判断。

2.2.文本预处理

文本预处理是文本相似度处理的最基本的过程,它将原始的文本处理为特定模型,经过了去除低频词、分词、统一时态、同义词替换等一系列步骤。其基本处理过程如图2-1所示。文本的数据来源非常广泛,有sql数据库数据,xml数据,网页数据需要去掉HTML Tag等等,对于不同的数据需要经过处理得到统一,最后还要采用相同的编码避免错误,比如GBK和GB2312编码需要通过转码才能在UTF-8编码下正确显示。

 

剩余内容已隐藏,请支付后下载全文,论文总字数:19189字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;