基于TensorFlow的社交网络文本向量表示方法研究

 2022-01-17 11:01

论文总字数:38397字

目 录

1 引言 1

1.1 论文研究的背景及意义 1

1.2 国内外研究现状 1

1.3 论文内容安排 2

2 词向量 3

2.1 词向量定义 3

2.2 词向量的计算方法 3

2.2.1 独热编码表示 3

2.2.1 基于统计概率模型的表示方法 4

2.2.1.1 统计语言模型 4

2.2.1.2 CBOW模型 4

2.2.1.3 Skip-gram模型 9

2.2.1.4 GloVe模型 11

2.3 训练过程的采样 13

2.3.1 方法 13

2.3.2 噪声对比估计方法 15

2.4 本章小结 16

3 基于TensorFlow的词向量训练实验分析 17

3.1 文本数据预处理 17

3.1.1 预处理流程 17

3.1.2 实验文本预处理 17

3.2 基于TensorFlow的词向量训练过程及结果分析 18

3.2.1 Skip-gram模型实验过程 18

3.2.2 Skip-gram模型实验结果 20

3.2.3 CBOW模型实验过程 21

3.2.4 CBOW模型实验结果 22

3.2.5 GloVe模型实验过程 24

3.3.6 GloVe模型实验结果 26

3.4 本章小结 27

4 词向量在文本分类上的应用 28

4.1 数据来源 28

4.2 基于TensorFlow的文本分类实验 28

4.2.1深度神经网络模型 28

4.2.2 评价标准 30

4.2.2 实验结果 30

4.3 本章小结 32

5 总结 32

参考文献 32

致谢 34

基于TensorFlow的社交网络文本向量表示方法研究

韦彭祥

, China

Abstract:In the past decade or so, as the Internet has entered a period of rapid development, social networks have played an increasingly important role in human life. Because there are large-scale text information being generated on social networks every day, it is a necessary task in the field of Natural Language Processing how computers rationalize the text information in order to facilitate the subsequent analysis of large data. This thesis aims to transform the data types of texts into a language that can be recognized by computers for the short text information that appears in social networks. This thesis focuses on the related principles of Word2vec model (CBOW model, Skip-gram model) based on neural network language model, and GloVe model based on global co-occurrence matrix. With coding via TensorFlow computing framework developed by Google, the Chinese-English corpus are trained with these models, which eventually forming a text transformation process from the beginning of the data acquisition to the final visualization of the numerical vector. After completing the main research work, this thesis focuses on the application of the word vector in the field of sentiment polarity analysis to make relevant experiments based on the Deep Neural Network model.

Key words: word vector; Word2vec model; GloVe model; TensorFlow; sentiment polarity analysis.

1 引言

1.1 论文研究的背景及意义

互联网应用在当今人类生活中扮演着越来越重要的角色,其集中体现在以下几个方面:(1)通信服务,人们可利用以微博与Twitter为代表的社交平台、电子邮件等方式实现相互通信;(2)电子商务,主要包括网上货币支付、网络购物等;(3)生活娱乐,其中能够涉及网络音乐、视频、游戏等;(4)发布和获取信息,通过社交网络、搜索引擎和各种检索信息库,人们既可以随时获取各个方面的信息,也可以发布信息。互联网应用主要以文本、图像、语音等形式与用户进行交互。然而就目前来看,文本仍旧是其占比最重的交互手段。

每天都有大量的文本信息通过这些网络平台进行传播,用户在电商网站对商品进行的评价、谷歌处理每秒数以百万的搜索请求、Twitter等社交平台每天也会发布数亿条消息,与此同时,这些文本信息的规模还在惊人的速度增长。对于用户来讲,他们需要的是如何快捷地从大规模的信息中获取对自己有用的信息,这也是有效处理大规模短文本信息的意义所在。

对大量文本数据进行处理的关键步骤就是将文本信息转化为可以供计算机识别的语言,而计算机中进行计算的全是数值型数据,因此如何将文本从字符型的数据转化为数值型的数据就是本文需要研究的主要方向。Twitter、微博等社交网络中的短文本相比于新闻等传统的常规文本来说长度较短,社交网络中的短文本往往由用户撰写和发布,其用词相对随意,存在着大量的新词,而且社交网络短文本信息的时效性令其越发的在自然语言里扮演越来越重要的角色,因此研究短文本的向量化转换是一项不可避免的课题。

是由科学家开发的一个开源软件库,其主要思想就是引入数据流图的概念,并在流图中完成内部的运算,在数据流图中有两个重要的元素,一个是结点,它代表的是在其中的进行的数学运算;另一个元素是边,它代表之间对数据的输入与输出。的一大特性就是其拥有无可比拟的灵活性,它能够利用单个的应用程序接口在各种终端的中央处理器或图像处理器中进行运算,除此之外,还为用户提供了多种编程语言的接口来完成数据流图的运算,其强大的适用性和其支持多种深度学习算法的特性可以让其广泛地应用于众多领域,比如文本分类领域[4]和图像处理检测领域[5]等。

本文将针对社交网络中出现的短文本信息,借助计算框架,将文本从符号型数据转为数值型的向量数据,形成一套完整的文本转化流程。

1.2 国内外研究现状

计算机中可以进行计算的全是数值型数据,为了将文本信息转化为可以供计算机识别的语言,只能将文本从字符型的数据转化为数值型的数据,即向量化文本信息。One-hot Representation是一种传统的词向量表示方法,然而这种方法有着明显的缺陷,如果词表是一个庞大的数据集,那么用来表示每个词的长向量的维度也会达到一个较大的数量级,进而造成整个系统在处理这些向量时存储十分缓慢而且占据存储空间大。针对于维度可能过大的问题,被称为“人工智能教父”的发表了一篇名为 的文章,其在文章中对深度学习的一些概念进行了描述,为如今深度学习的大发展奠定了坚实基础。在自然语言处理领域中,对于词向量的处理方法经历了多个阶段的演变,首先提出一种新的词向量表示方法,即分布式表示方法。2000年,徐伟提出结合神经网络来对语言模型进行训练,在之后提出了经典的三层的神经网络来构建语言模型,2008年,和提出了一种新的词向量的计算方法,并开源了他们的SENNA系统,其设计这套系统的目的是要用词向量去解决NLP中的一些问题。与曾经发表过研究统计语言模型的文章,他们在第一篇文章中提出了“Log-Bilinear”语言模型,其思想是利用上文出现的词来预测下面的词;另一篇文章中涉及到的是“hierarchical log-bilinear”模型,它引入了平衡二叉树的概念,即在表示一个多义词时,树上的几个叶子节点同时表示那一个词,这使得对多义词进行表示时更加精确。随后,阐明一种新的训练语言模型的想法,即RNNLM,该模型的最大优势在于,不再像原来一样,只能根据窗口的大小来决定上文中预测词的个数,而它不受窗口的限制来使用任意数量的上文对之后的词进行预测。随后基于神经网络语言模型提出的Word2vec模型[16]。2014年,斯坦福大学的等人基于全局分解矩阵提出了模型。 本文会在第二、三章中对模型和模型基本原理进行详细介绍,并进行相应的训练实验。

国外的词向量研究起步早,其模型与算法也已经成熟,对于国内的词向量研究而言,在近几年取得了飞速的发展。中文作为世界上使用人口最多的语言之一,使得对中文词向量的研究也颇具实践意义[22],而以往的国外研究基本着眼于英文文本的词向量训练。文本分类往往是词向量训练的应用领域,近年来,基于词向量的研究向更深层次发展,其被用于进行情感分析,由于社交网络在人类生活中扮演越来越重要的角色,情感分析也衍生出了专门针对与微博评论等短文本信息的情感分类[25]。如今的文本分类领域几乎引入了所有重要的机器学习算法,国外对于文本分类的研究也已相当成熟,国外当前流行的文本分类方法有K最近邻居(KNN)法[26],决策树[27],朴素贝叶斯[28],支持向量机(SVM),逻辑回归模型等方法。

1.3 论文内容安排

第一章介绍社交网络短文本向量化处理的背景和意义、的相关背景知识,并阐述了国内外研究现状和目前遇到的一些挑战。

第二章以词向量为中心进行展开,详细地介绍词向量的定义、词向量的计算方法、训练过程中的采样,本章的重点在对模型中的模型和Skip-gram模型的原理进行研究,同时还对基于全局共现矩阵的模型的相关原理作了介绍,并将三种模型的有缺点进行对比,在本章的最后将介绍两种词向量训练过程中的采样方法。

剩余内容已隐藏,请支付后下载全文,论文总字数:38397字

相关图片展示:

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;