基于深度学习的文本情感分析研究

 2022-01-17 11:01

论文总字数:38466字

目 录

1引言 1

2情感分析 1

2.1概念介绍 1

2.2研究现状 2

2.3情感分析的应用 2

2.4情感分析的不同层次 3

2.4.1文档级别 3

2.4.2语句级别 3

2.4.3实体和方面级别 4

2.5情感分析的方法 4

3深度学习 5

3.1 前述 5

3.2深度学习的起源与发展 6

3.2.1浅层学习 6

3.2.2深度学习 7

3.2.3人工神经网络 7

4实验数据描述 8

5基于RAE的情感分析 11

5.1递归自动编码器(RAE)的概念及原理 11

5.2方法及过程 12

5.3实验结果 13

6基于RNN的情感分析 14

6.1时间递归神经网络(RNN)的概念及原理 14

6.2方法及过程 15

6.3实验结果 19

7基于LSTM的情感分析 21

7.1 长短期记忆人工神经网络(LSTM)的概念及原理 22

7.2方法及过程 23

7.3实验结果 24

8方法与实验结果对比 26

8.1深度学习方法之间对比 26

8.2传统机器学习方法之间对比 26

8.2.1支持向量机 27

8.2.2随机森林 28

8.2.3实验结果 28

8.3深度学习方法与机器学习方法对比 33

9总结 34

参考文献: 34

致谢 36

基于深度学习的文本情感分析研究

纪晔

,China

Abstract:Sentiment analysis is the computational study of people's opinions, attitudes and emotions toward entities, issues, events, topic and their attributes. The task is technically challenging and practically very useful. For example, businesses always want to find public or consumer opinions about their products and services. Potential customers also want to know the opinions of existing users before they use a service of purchase a product. With the explosive growth of social media (i.e., reviews, forum discussions, blogs and social networks) on the Web, individuals and organizations are increasingly using public opinions in these media for their decision making. That's the meaning why we do the research of sentiment analysis. As the most popular topic and field in natural language processing, deep learning algorithms work well on the sentiment classification.

In this paper, we chose three popular deep network models, i.e. RAE(Recursive Auto Encoder), RNN(Recurrent Neural Network) and LSTM(Long-Short Term Memory) for sentiment analysis and use the twitter data to verify the availabilities of these methods. Besides we also use the traditional machine learning algorithms, SVM(Support Vector Machine) and Random Forest to do the classification experiments based on the same data sets. Afterwards we make comparisons of the classification results separately, and found that the LSTM works better than RNN and RAE, while RF and SVM work better than LSTM. The result of our experiment shows that the accuracy of machine learning is higher than deep learning’s.

Key words:sentiment analysis;machine learning;deep learning;auto encoder;RNN

1引言

情感分析是自然语言处理中最为流行,简单和实用的任务之一,也被广泛地运用于数据挖掘等领域的研究。它旨在预测文本,通常是一个句子或一段评论包含的情感和态度。例如电影或者餐厅经常以一定数量的星星排名,这就表明了评论者对消费对象的满意程度。

但是因为其对企业乃至整个社会的重要性,情感分析这项研究已经蔓延到计算机科学和社会科学之外,并随着互联网上社交媒体产生的公众舆论数目的日益增长,情感分析也显得愈加重要。

其实在我们的生活中,情感分析是无处不在的问题。人们可以从语言和文字的交流中判断出彼此话语里的情绪以及观点,而当人们在做决定的时候,这些观点和情绪就起着至关重要的作用。

例如商家为了检验一款新的产品是否会受到消费者的青睐,能否立即投入到市场中去,便会让市场部的工作人员在街头分发传单,或者携带着相关的问卷随机拉来路过的行人进行意见的征询和收集;学校的食堂或者街边的饭馆都会在柜台处留有意见簿,以供消费完的顾客留下他们宝贵的意见;甚至政府的民意调查,乃至一个国家的政治选举,都可能会涉及到情感分析的应用。

因为上述的这些方式相对传统,在获得到这些信息后人们对其中的观点和意见进行人工手动处理,就会显得十分低效、混乱和易错。而在这样一个信息爆炸的时代,互联网上有关用户对商品的评论、电影影评,以及微博、推特等信息每天都在以指数级增长,这个时候如果再使用人工方法去对信息进行处理和分析则就会显得有点力不从心。

所以近年来,使用计算机来处理文本信息,并对文本进行情感分析已成为学术界和工业界的热门话题。

现阶段主要的情感分析方法主要有两类,一类是基于语义(情感词典)的方法,另一类就是基于机器(深度)学习的方法。

2情感分析

2.1概念介绍

情感分析(Sentiment Analysis)[14],又称为意见挖掘(Opinion Mining)[15],指的是利用自然语言处理(NLP),文本分析和计算机语言学的技术提取原始文本材料中的主观信息,而从用来分析研究人们对于产品,服务以及其他一些事物的情感,情绪,意见,评论,评价和态度。

情感分析代表了很大的一个问题领域,所以也就有了各式各样的名字和略微不同的任务,例如情绪分析,意见挖掘,观点抽取,情感挖掘,主观分析、影响分析、情感分析、评论挖掘等。但是,他们现在都在情感分析和意见挖掘的范围之内。在工业界内,情感分析这个词是较为常用的,但是在学术界中情感分析和意见挖掘则是经常被同时采用。它们基本上代表了相同的研究领域。

对情感和意见的研究比情感分析和意见挖掘这两个术语出现的更早[16],为了统一起见,本文中将只采用情感分析这一术语。

2.2研究现状

尽管语言学和自然语言处理(NLP)有着悠久的历史,在2000年前还是先驱做了有一些关于人类情感和意见的研究。自此以后,情感就变成了十分活跃的研究领域。我们可以对此现象归纳出如下几个原因:

首先,情感分析有着很广泛的应用,几乎各项领域都有可能会涉及。并且随着相关商业应用的增多,围绕着情感分析的产业也随之蓬勃发展。这给对这项领域的研究提供了很大的动力。

其次,情感分析提供了很多以前从未研究过的,并十分具有挑战的研究问题。

再者,作为人类历史上的第一次,在互联网上我们的社交媒体拥有着海量的数据,如果没有这些数据,很多研究都根本没有机会去完成。

所以在拥有了这些社会媒体提供的海量数据后,情感分析领域的研究毫无疑问地呈现出了飞速的成长和发展趋势。并且在事实上,情感分析现在也是成为了社交媒体研究的中心。

因此,对于情感分析的研究不只会对自然语言处理,而是同时会对政治学、经济学、社会科学、管理学等学科或者研究领域产生重要深远的影响。

2.3情感分析的应用

意见几乎是所有人类活动的中心,因为它对我们的行为有着关键的影响。当需要做决定的时候,我们往往想要去知道其他人的意见。在现实世界里,企业和组织总是会想要去寻找消费者或者公众意见对他们的产品和服务的意见。个人消费者也想在付款之前了解已有的顾客的意见,或者在做出政治选举投票之前知晓一些他人的意见。

在过去,当一个人需要建议或者意见时,他/她会去询问自己的朋友或者家人。而当一个组织或者企业需要公众或者消费者的意见时,它会进行调研,民意调查。获取公众和消费者的意见对于从事市场营销,公共关系和政治运动的公司来言一直是一件大事。

随着社交媒体在互联网上爆炸式的增长(例如,评论,回复,社区讨论,博客,微博,Twitter,以及社交网站上发布的状态),个人和组织越来越多地开始使用这些媒体中的内容来作为他们做决定时的参考。现如今,如果一个人想要买一件消费品,这个人就不再局限于向他的朋友和家人咨询意见了,因为在互联网上的公众论坛里有许多相似的消费者留下他们自己的评论和讨论。对于一个组织而言,对于一个组织,为了收集民众意见它可能没有必要再去进行调查,民意调查和关注重点群体了,因为有这么多公开的信息可以即取即得。然而,发现和监测舆论网站并提取其中所含的信息仍然是一个艰巨的任务,因为不各式各样的网站增长地太快。

剩余内容已隐藏,请支付后下载全文,论文总字数:38466字

相关图片展示:

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;