基于卷积神经网络方法的英文短文本情感分类

 2022-01-17 11:01

论文总字数:19570字

目 录

1 背景 1

1.1工作目的 1

2 相关工作 2

2.1文本客观性分类 2

2.2词的极性分类 2

2.3文本情感分类 2

2.3.1 基于情感词典的文本情感分类 2

2.3.2 基于机器学习的文本情感分类 3

3 基于卷积神经网络的情感分类 3

3.1 数据处理 5

3.1.1 数据清洗 5

3.1.2 文本表示 6

3.1.3数据搜集 9

3.2卷积神经网络 11

3.2.1 TensorFlow 11

3.2.2 卷积神经网络 12

3.2.3卷积神经网络在文本中的应用 14

3.3相关优化技巧 15

3.3.1 Dropout 15

3.3.2 Early stopping 16

3.3.3 Adaptive learning rate 16

4 实验结果 16

5 总结 20

参考文献: 21

致谢 22

基于卷积神经网络方法的英文短文本情感分类

莫绪言

,China

Abstract:The rapid development of the Internet has enabled everyone to express themselves and to express their opinions more freely and conveniently. Applications such as Twitter and Facebook provide the public with a platform to express their emotions. Sentimental classification gradually attracts the attention of researchers and merchants, because the correct emotional analysis is conducive to stimulating consumer spending, helping merchants to improve their own products and control of public opinion. In order to understand the public's reaction to a certain event, in order to support the analysis of the support rate and the public's sentimental tendencies for an event. For example, through movie reviews to calculate the reputation of a movie, through the buyer's evaluation to calculate the quality of the good. This article describes several commonly used emotional classification algorithms and introduce the development of the sentiment classification. This paper also implements a sentiment classification method based on convolutional neural networks to determine whether a short text is negative, positive or neutral. This article selected the latest film review of the Avengers III and another film Begin Again as a demonstration. This system is based on the python language and is developed using Pycharm and TensorFlow.

Key words:CNN;Word2Vec;Natural Language Processing; TensorFlow

1 背景

在我们如今所处的时代中,无论是网友的评论还是经验之谈,网上的资料为我们提供了大量的信息。如何从浩如烟海的资料中寻求自己需要的信息,例如在遇到问题时,搜寻自己需要的答案;在买东西时,搜寻商品的差评以获得大概的心理预期,查看好评差评分布以估计商品的大约质量[7]。为了更好的分析并利用这些信息,刚开始,研究人员一直在尝试进行文本分类的工作,主要方向是文本的主题分类,往往是根据关键词将文本按照类别进行分类,如地理,政治,历史等[8]。但随着这几年来,论坛和评论网站(例如美团,淘宝等)的迅速发展,而在这之中发布的文章的最重要特征在于这些往往表达了作者的观点,例如商品是好还是坏,作者们用自己的评价来给予读者们建议,研究人员慢慢将目光转向了情感分类的领域[6]

情感分类(sentiment classification)即是对于给定的语句分析出其内在的感情。其中一种是将从句子中分析出人对于这件事物的情感倾向,可以是喜欢的,也可以是厌恶和中性的。也有是从语句中获取人当时的情感,如喜、怒、哀、乐等[6]。例如“The film is as good as a wonderful dream. ”(这部电影就像一个盛大的梦境)表现了评论者对于该作品由衷的赞赏与喜爱;“This film is as good as a shit.(这部电影非常差劲。)”表现了作者对这部电影的批评之意。通过情感分析能够了解到大众对于事物以及热点话题的好恶,甚至公司的公众形象;也可以根据用户对于商品评价的好恶来为其推荐他可能喜欢的商品。

情感分类对于推荐系统和商业智能应用都有着广阔的应用前景,厂商可以对用户的评价进行快速总结,一般而言自然语言形式的调查问卷往往可以通过情感分类来进行初步处理。通过判断大众对于某件事件或者某件商品的评价,政府能够按照紧急程度对事件进行处理,充分考虑到舆论的想法;商家可以了解到买家对于自身商品的评价以及需要改进的地方。同时企业也需要针对大众对于企业的误解,来做出针对性的回复和辟谣。电影推荐系统可以根据用户在电影中的喜好,来为用户推荐相似的电影。

1.1工作目的

本文旨在实现一种使用训练卷积神经网络的深度学习方法,能够预测给定句子的情感类别,并使用影评为例进行情感分析处理。

本文是这样组织的,在第二部分介绍了情感分类的相关工作,第三第四部分介绍了基于卷积神经网络的情感分类方法,第五部分介绍了情感分类任务的实验情况,第六第七部分是总结与致谢部分。

2 相关工作

情感分类是一个比较经典而持续的任务,最新的深度模型在发展过程中有一些新的想法和创新也会在情感分类的领域中进行尝试。情感分类的相关研究工作的主要类别有下面几种。

2.1文本客观性分类

由于只有主观色彩的文本才会包含着作者的感情,为了不影响文本情感分类的准确性,往往会将客观色彩的评论(客观的评价是只描述事物本身而不掺杂任何个人情绪)先筛去,只留下主观色彩的文本。一般这类任务的做法是使用基于词性标注的特征选择算法提取特征,再进行分类。对于同一种事物,不同评论者的评价可能会有较大差距。

2.2词的极性分类

词的极性分类指的是将词按照情感的极性,例如喜欢和厌恶,分为两级。一般的做法是使用Sentiment Tag Ex2 traction Program (STEP)方法从句子中提取情感词[6],使用人的直觉即先验知识——利用同义词,反义词和上下文单词来提取情感词。判断两个词的关系的方法往往是根据这两个词在数据集中一起出现的次数决定两个词的相似程度,这个方法同样也在用在谷歌的Word2Vec的方法中。在遇到情感词典未存在的新词时,会在数据集中搜索和这个新词最相似的已存在词汇来判别这个新词的情感极性。这类工作与传统的聚类方法有一定的联系。

2.3文本情感分类

文本情感分类的研究首先在20世纪90年代时兴起。情感分类主要分为两类,一是基于情感词典方法的文本情感分类,二是基于机器学习方法的文本情感分类[4]

2.3.1 基于情感词典的文本情感分类

基于情感词典的文本情感分类往往是选取情感词,程度副词以及否定词,给予每个情感词和程度副词一个权重,计算出该文本的情感倾向,以此来将文本的情感进行分类[10]。这就与上文提到的词的极性分类有了联系,文本的情感分类本就是基于词的极性分类发展演变而来。然而,给定情感词的权重这一过程太过于主观化,很难具体准确刻画情感词的真实权重。这类情感分析的主要步骤为分析句子结构,从句子结构和使用的情感副词来考虑影响整个句子的情感色彩,并将已有的情感词汇和句子的情感分析结果作为语义特征加入到条件随机域中,进而判断整个文章的情感类别。但是这种方法有种致命的弱点,在于很难将所有的规则都写出来,例如”The film is as good as a shit.”(这部电影奇差无比。),虽然句子中有good这个积极词汇,但是这整个句子其实表达的是一个批评的意思,仅仅的基于情感词典的方法很难满足我们对于情感分类的需要,这时,基于机器学习的文本情感分类应运而生。

2.3.2 基于机器学习的文本情感分类

自从深度学习进入到自然语言处理中来,基于机器学习的自然语言处理一直在快速的发展。在基于机器学习的文本情感分析中,比较常用机器学习方法主要有:支持向量机(SVM),最大熵(ME),循环神经网络(RNN)和卷积神经网络(CNN)。在传统的机器学习中(非深度学习),比如:支持向量机和最大熵中,特征向量需要依靠人工的方法进行提取,抽取出以 n-gram、名词、形容词和副词作为不同的文本表示特征,将这些特征放入模型中进行训练,取得了不错的成绩。在这之上,夏火松和陶敏等人在预处理文本时,采用不同的停用词表和TF-IDF权重方法进行处理和特征选择,也取得了不错的成绩。随着深度学习的发展,人们又设计了一个基于语序的模型——循环神经网络(RNN),在RNN中,前面的输入会对后面的输出产生一些影响,而这影响随着输入的距离的变大而不断削弱,这与我们对于语言的直观理解是相互对应的,由于语言具有语序,前面的单词可能会对接下来的单词具有影响效果,前期在基于神经网络的研究中,自然语言处理方向的问题往往采用循环神经网络(RNN)的模型进行处理[2]。而卷积神经网络首先是在图像方面得到实施的,由于卷积神经网络是按照卷积计算的方式来获取特征,更适合于那些输入为矩阵的任务,所以在进入自然语言处理领域时遇到了一些阻碍,幸运的是,在2014年,YoonKim发表了名为Convolutional Neural Networks for Sentence Classification的论文,表示在短文本情况下,卷积神经网络(CNN)通过将滤波器(filter)按照设定的宽度进行移动处理,准确率得到了一定的提升[1]。在2017年时,句子分类任务又有了一个新的做法——基于注意力(attention)的模型self-attention,仅仅依靠注意力模型来提取特征,抛弃了以往的卷积神经网络和循环神经网络的做法,准确率获得了进一步的提高。

本文的工作是基于卷积神经网络的情感分类方法,利用Word Embedding方法训练词向量,再将输入的句子表示为词向量矩阵作为输入,完成卷积训练的工作。

3 基于卷积神经网络的情感分类

本部分讨论的情感分类方法主要由三个部分组成,依次可以分为,数据处理,模型训练以及预测分类输出三个环节,正如图3.1所示:

剩余内容已隐藏,请支付后下载全文,论文总字数:19570字

相关图片展示:

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;